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本 书 试图 在 介绍 大 数据 技术 的 理论 基础 上 对 大 数据 分 析 最 新 前 沿 技术 做 全 面 详细 介 
绍 ,给 出 实际 案例 及 行业 解决 方案 ,达到 技术 全 面 、 案 例 教学 及 工程 实用 的 目的 。 

本 书 主要 分 为 4 个 部 分 , 共 10 章 , 分 别 按 大 数据 的 技术 架构 分 层次 详细 讲述 涉及 大 
数据 分 析 系 统 的 各 类 相关 技术 ， 

第 一 部 分 大 数据 基础 知识 , 简单 介绍 我 们 目前 面临 的 数字 化 时 代 与 信息 社会 的 状 
况 , 大 数据 的 定义 和 特点 、 大 数据 技术 基础 、 大 数据 的 社会 价值 .大 数据 的 商业 应 用 、 大 数 
据 的 基础 架构 \ 云 计算 网 络 的 技术 层次 、 典 型 的 云 计 算 网 络 平台 ,包括 第 1 章 “ 大 数据 技术 
基本 概念 ”和 第 2 章 “ 基 础 架构 一 一 云 计算 网 络 ”; 

第 二 部 分 大 数据 理论 与 技术 ,介绍 涉及 大 数据 分 析 的 基本 理论 与 技术 基础 ,按照 技 
术 层 次 分 别 介绍 大 数据 采集 与 预 处 理 、 大 数据 存储 、 大 数据 计算 模式 与 处 理 系 统 、 大 数据 
查询 、 显 示 与 交互 \ 大 数据 分 析 与 数据 挖掘 ,大 数据 隐私 与 安全 ,包括 第 3 章 到 第 8 章 的 
内 容 ; 

第 三 部 分 “为 行业 案例 研究 ,以 银行 保险 .证 券 、 金 融 行业 为 例 ,介绍 涉及 大 数据 分 
析 的 理论 与 技术 方法 在 具体 行业 中 的 应 用 ,包括 第 9 章 “ 行 业 案 例 研究 ”; 

第 四 部 分 大 数据 技术 发 展 前 景 ,介绍 大 数据 引发 的 新 一 代 信 息 技术 变革 浪潮 、 大 数 
据 各 个 过 程 的 最 新 技术 与 发 展 前 景 ,包括 第 10 章 大 数据 技术 发 展 前 景 。 

本 书 主要 作为 高 等 院 校 计算 机 专业 、 信 息 管理 与 信息 系统 专业 、 经 济 类 专业 、 管 理 类 
专业 相关 专业 本 科 生 和 研究 生 专 业 基 础 课 的 教材 ,安排 课时 为 48 课时 (3 学 分 )。 如 课时 
缩减 ,可 在 概要 和 令 述 第 一 部 分 的 基础 上 ,主要 讲解 第 二 部 分 第 3 章 到 第 8 章 的 内 容 , 并 安 
排 学 生 在 课外 自主 阅读 每 章节 后 的 案例 及 第 9 章 “ 行 业 案例 研究 ”。 第 10 章 “ 大 数据 技术 
发 展 前 景 " 仅 作 参 考 性 讲解 。 

本 书 的 特点 是 紧 扣 实践 应 用 需求 ,全 面 讲述 讲 云 计算 与 大 数据 分 析 实 用 技术 ,提供 了 
大 量 的 实际 案例 、 数 据 分 析 适 用 技术 。 内 容 新 颖 、 用 表格 和 结构 图 直观 描述 知识 并 力图 反 
映 最 新 主流 技术 。 

每 一 章 在 讲解 相关 理论 外 ,还 讲解 了 最 新 前 沿 技术 。 各 章 都 附 有 案例 、 习 题 以 帮助 读 
者 学 习 理解 和 实际 工程 应 用 。 为 方便 教师 教学 , 附 有 全 套 教 学 PPT 课件 .教学 大 岗 、 教 学 
计划 以 便 教师 使 用 。 

本 书 由 李 联 宁 教 授 编著 ,在 本 书 编写 过 程 中 ,编者 参考 了 国内 外 大 量 的 云 计算 网 络 
与 大 数据 分 析 技 术 的 书刊 及 文献 资料 ,主要 参考 书籍 及 研究 论文 在 书后 “参考 文献 ”中 
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当今 ,信息 技术 为 人 类 步 人 智能 社会 开启 了 大 门 ,带动 了 互联 网 、 物 联网 .电子 商务 、 
现代 物流 、 网 络 金融 等 现代 服务 业 发 展 , 催 生 了 车 联网 .智能 电网 .新 能 源 、 智 能 交通 、 智 能 
城市 高端 装备 制造 等 新 兴 产 业 发 展 。 现 代 信息 技术 正成 为 各 行 各 业 运 营 和 发 展 的 引擎 。 
但 这 个 引擎 正面 临 着 大 数据 这 个 巨大 的 考验 。 各 种 业务 数据 正 以 几何 级 数 的 形式 爆发 ， 
其 格式 收集、 储存 .检索 、 分 析 、 应 用 等 诸多 问题 ,不 再 能 以 传统 的 信息 处 理 技术 加 以 解 
决 ,对 人 类 实现 数字 社会 .网 络 社会 和 智能 社会 带 来 了 极 大 的 障碍 。 

大 数据 的 出 现 将 影响 各 行 各 业 以 及 每 个 人 生活 。 以 下 十 个 事实 会 让 你 相信 ,每 个 人 
都 必须 注意 大 数据 : 

(1) 全 球 数据 的 90% 产 生 于 过 去 2 年 内 。 

(2) 当前 数据 产生 的 速度 非常 快 ,以 今天 的 数据 生产 速度 ,我 们 可 以 在 2 天 内 生产 出 
2003 年 以 前 的 所 有 数据 。 

(3) 行业 内 获取 并 且 存 储 的 数据 量 每 1. 2 年 就 会 翻 一 番 。 

(4) 到 2020 年 ,全 球 数 据 量 将 由 现在 的 3. 2ZB 变 为 40ZB(1ZB= 1024EB,1EB= 
1024PB,1PB 王 1024TB) 。 

(5) 仅 Google 一 家 搜索 引擎 ,每 秒 就 处 理 4 万 次 搜索 查询 ,一 天 之 内 更 是 超过 35 亿 次 。 

(6) 最 近 的 统计 报告 显示 ,我 们 每 分 钟 在 Facebook 上 贡献 180 万 次 赞 , 上 传 20 万 张 
照片 。 与 此 同时 ,我们 每 分 钟 还 发 送 2. 04 亿 封 邮件 ,发 送 27. 8 万 个 推 文 。 

(7) 每 分 钟 大 约 有 100 小 时 的 视频 被 传 上 类 似 YouTube 这 样 的 视频 网 站 。 更 有 趣 
的 是 ,要 花费 15 年 才能 看 完 一 天 之 内 被 传 到 YouTube 上 的 全 部 视频 。 

(8) AT&T 被 认为 是 能 够 用 单一 数据 库存 储 最 多 数据 量 的 数据 中 心 。 

(9) 在 美国 ,很 多 新 的 IT 工作 将 被 创造 出 来 以 处 理 即 将 到 来 的 大 数据 工程 潮 ,而 每 
个 这 样 的 职位 都 将 需要 3 个 额外 职位 的 支持 ,这 将 会 带 来 总 计 600 万 个 新 增 工作 岗位 。 

(10) 全 球 每 分 钟 会 新 增 570 个 网 站 。 这 一 统计 数字 至 关 重 要 ,也 具有 苏 覆 性 。 

预测 是 : 数据 以 及 数据 分 析 能 力 正 与 日 俱 增 ,未 来 五 年 ,无 论 何等 规模 的 企业 都 将 使 
用 某 种 形式 的 数据 分 析 来 影响 其 商业 运作 。 


1.1 数据 


数据 (data) 是 对 客观 事物 的 逻辑 归纳 ,用 符号 .字母 等 方式 对 客观 事物 进行 直观 描 
述 。 数 据 是 进行 各 种 统计 、 计 算 ,科学 研究 或 技术 设计 等 所 依据 的 数值 ,是 表达 知识 的 字 
符 的 集合 。 数 据 是 信息 的 表现 形式 。 数 据 可 以 是 连续 的 值 ,例如 声音 , 称 为 模拟 数据 ;也 
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可 以 是 不 连续 (离散 ) 的 值 ,例如 成 绩 , 称 为 数字 数据 。 
1.1.1 数据 的 单位 


数据 最 小 的 基本 单位 是 bit, 按 顺序 给 出 所 有 单位 : bit、Byte、KB、MB、GB、TB、PB、 
EB.ZB,YB.BB.NB.DB. 

它们 按照 进 率 1024(2 的 十 次 方 ) 来 计算 : 
lByte = 8bit 
1KB = 1024Bytes = 8192bit 
1MB = 1024KB = 1 048 576Bytes 
1GB = 1024MB = 1 048 576KB 
1TB = 1024GB = 1 048 576MB 
1PB = 1024TB = 1 048 576GB 
1EB = 1024PB = 1 048 576TB 
1ZB = 1024EB = 1 048 576PB 
1YB = 1024ZB = 1 048 576EB 
1BB = 1024YB = 1 048 576ZB 
1NB = 1024BB = 1 048 576YB 
1DB = 1024NB = 1 048 576BB 


1.1.2 数据 与 信息 的 关系 


数据 是 一 种 未 经 加 工 的 原始 资料 。 数 字 文字 、 符 号 、 图 像 都 是 数据 。 数 据 是 客观 对 
象 的 表示 ,而 信息 则 是 数据 内 涵 的 意义 ,是 数据 的 内 容 和 解释 。 综 上 所 述 , 数 据 就 是 指 能 
够 客观 反映 事实 的 数字 和 资料 。 

信息 与 数据 的 关系 是 : 信息 与 数据 是 不 可 分 离 的 ,数据 是 信息 的 表达 ,信息 是 数据 的 
内 涵 。 数 据 本 身 并 没有 意义 数据 只 有 对 实体 行为 产生 影响 时 才 成 为 信息 。 


1.1.3 数据 的 分 类 


在 信息 社会 ,信息 可 以 划分 为 两 大 类 : 一 类 信息 能 够 用 数据 或 统一 的 结构 加 以 表示 ， 
我 们 称 之 为 结构 化 数据 ,如 数字 、 符 号 ; 另 一 类 信息 无 法 用 数字 或 统一 的 结构 表示 ,如 文 
本 、 图 像 ,声音 、 网 页 等 ,我 们 称 之 为 非 结构 化 数据 。 结 构 化 数据 属于 非 结构 化 数据 的 一 部 
分 ,是 非 结构 化 数据 的 特例 。 

1. 结构 化 数据 

结构 化 信息 是 指 信息 经 过 分 析 后 可 分 解 成 多 个 互相 关联 的 组 成 部 分 ,各 组 成 部 分 间 
有 明确 的 层次 结构 ,其 使 用 和 维护 通过 数据 库 进行 管理 ,并 有 一 定 的 操作 规范 。 我 们 通常 
接触 的 ,包括 生产 ,业务 、 交 易 ,客户 信息 等 方面 的 记录 都 属于 结构 化 信息 。 

结构 化 数据 简单 来 说 就 是 存储 在 结构 化 数据 库 里 的 数据 ,可 以 用 二 维 表 结 构 来 逻辑 
表达 实现 的 数据 。 结 合 到 典型 场景 中 更 容易 理解 ,比如 企业 ERP、 财 务 系统 ;医疗 HIS 数 
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据 库 ; 教 育 一 卡通 ;政府 行政 审批 ;其 他 核心 数据 库 等 。 这 些 应 用 需要 包括 高 速 存储 应 用 
需求 .数据 备份 需求 .数据 共享 需求 以 及 数据 容 灾 需 求 。 
2. 非 结构 化 数据 


不 方便 用 数据 库 二 维 逻 辑 表 来 表现 的 数据 即 称 为 非 结构 化 数据 ,包括 所 有 格式 的 办 
公文 档 , 文 本、 图 片 . 标 准 通用 标记 语言 下 的 子 集 XML、HTML ,各 类 报表 、 图 像 和 音频 / 
视频 信息 等 等 。 

所 谓 非 结构 化 数据 库 , 是 指数 据 库 的 变 长 记录 由 若干 不 可 重复 和 可 重复 的 字段 组 成 ， 
而 每 个 字段 又 可 由 若干 不 可 重复 和 可 重复 的 子 字段 组 成 。 用 它 不 仅 可 以 处 理 结构 化 数据 
(如 数字 符号 等 信息 ) 而 且 更 适合 处 理 非 结构 化 数据 (全 文 文本 、 图 像 .声音 .影视 、 超 媒体 
等 信息 ) 。 简 单 地 说 , 非 结 构 化 数据 库 就 是 字段 可 变 的 数据 库 。 

非 结构 化 Web 数据 库 主 要 是 针对 非 结构 化 数据 而 产生 的 ,与 以 往 流行 的 关系 数据 库 
相 比 , 其 最 大 区 别 在 于 它 突破 了 关系 数据 库 结 构 定 义 不 易 改变 和 数据 定 长 的 限制 ,支持 重 
复 字 段子 字段 以 及 变 长 字段 并 实现 了 对 变 长 数据 和 重复 字段 进行 处 理 和 数据 项 的 变 长 
存储 管理 ,在 处 理 连续 信息 (包括 全 文 信息 ) 和 非 结 构 化 信息 (包括 各 种 多 媒体 信息 ) 中 有 
着 传统 关系 型 数据 库 所 无 法 比拟 的 优势 。 

3. 半 结 构 化 数据 

所 谓 半 结 构 化 数据 ,就 是 介 于 完全 结构 化 数据 (如 关系 型 数据 库 .面向 对 象 数据 库 中 
的 数据 ) 和 完全 无 结构 的 数据 (如 声音 、 图 像 文 件 等 ) 之 间 的 数据 ,HTML 文档 就 属于 半 结 
构 化 数据 。 它 一 般 是 自 描述 的 ,数据 的 结构 和 内 容 混 在 一 起 ,没有 明显 的 区 分 。 

4. 各 类 数据 的 区 别 

结构 化 数据 : 行 数据 ,存储 在 数据 库 里 ,可 以 用 二 维 表 结构 来 逻辑 表达 实现 的 数据 。 

非 结构 化 数据 : 包括 所 有 格式 的 办 公文 档 , 文 本 、 图 片 XML、HTML、 各 类 报表 ,图 
像 和 音频 /视频 信息 等 等 。 

半 结 构 化 数据 : 介 于 完全 结构 化 数据 和 完全 无 结构 的 数据 之 间 的 数据 , 它 一 般 是 自 
描述 的 ,数据 的 结构 和 内 容 混在 一 起 。 

1) 数据 模型 

各 类 数据 的 数据 模型 和 基本 特征 如 下 : 

结构 化 数据 : 二 维 表 ( 关 系 型 )。 

半 结 构 化 数据 : 树 、 图 。 

非 结构 化 数据 : 无 。 

2) 关系 型 数据 库 系统 RMDBS 的 数据 模型 

RMDBS 的 数据 模型 包括 网 状 数据 模型 .层次 数据 模型 .关系 型 。 

3) 不 同类 型 数据 的 形成 过 程 

结构 化 数据 : 先 有 结构 ,再 有 数据 。 

半 结 构 化 数据 : 先 有 数据 ,再 有 结构 。 

5. 互联 网 信息 分 类 

互联 网 上 出 现 的 海量 信息 ,同样 分 为 结构 化 、 半 结构 化 和 非 结构 化 三 种 。 
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(1) 结构 化 信息 如 电子 商务 信息 ,信息 的 性 质 和 量 值 的 出 现 的 位 置 是 固定 的 ， 
如 图 1.1 所 示 ; 
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图 1.1 结构 化 信息 


(2) 半 结 构 化 的 信息 如 专业 网 站 上 的 细 分 频道 ,其 标题 和 正文 的 语法 相当 规范 ,关键 
词 的 范围 相当 局 限 ; 

(3) 非 结构 化 的 信息 如 博客 (BLOG) 和 网 上 社区 BBS, 所 有 内 容 都 是 不 可 预知 的 。 

结构 化 信息 和 非 结构 化 信息 是 IT 应 用 的 两 个 世界 ,它们 有 着 各 自 不 同 的 应 用 进化 
特点 和 规律 。 但 是 ,这 两 个 世界 之 间 还 缺少 相互 连接 的 桥梁 ,而 这 种 缺失 使 企业 中 不 可 避 
免 地 存在 “活动 “信息 和 知识 ”的 分 离 , 其 后 果 就 是 : 虽然 它 企业 非 结构 化 数据 越 来 越 多 
们 都 在 进行 着 “知识 化 ”的 努力 ,但 两 个 世界 分 离 的 IT 应 用 
模式 ,注定 使 其 难以 真正 实现 它们 的 初衷 一 一 “在 最 合适 的 
时 间 ,将 最 合适 的 信息 传送 给 最 合适 的 人 ”。 

6. 中 国企 业 的 数据 现状 

目前 ,中 国企 业 500 强 的 每 日 数据 生成 量 近 一 半 都 多 于 


1GB, 更 有 4. 9 站 的 企业 超过 1TB。 中 国企 业 级 数据 中 心 数 
据 存储 量 正在 快速 增长 , 非 结构 化 数据 呈 指 数 倍增 长 ,如 果 aa 
能 有 效 地 处 理 和 分 析 , 非 结构 数据 中 也 富 含 对 企业 非常 有 价 

值 的 信息 ,如 图 1. 2 所 示 。 





1.2 中 国企 业 的 数据 现状 


1.2 信息 


1.2.1 信息 的 定义 


“信息 "一 词 在 英文 法文、 德 文 .西班牙 文中 均 是 information ,日 文中 为 “情报 ,我 国 
台湾 称 之 为 “资讯 ”, 我 国 古 代用 的 是 “消息 ”。 

信息 , 指 音讯 消息、 通信 系统 传输 和 处 理 的 对 象 , 泛 指 人 类 社会 传播 的 一 切 内 容 。 人 
通过 获得 .识别 自然 界 和 社会 的 不 同 信 息 来 区 别 不 同 的 事物 ,得 以 认识 和 改造 世界 。 在 一 
切 通信 和 控制 系统 中 ,信息 是 一 种 普遍 联系 的 形式 。 

根据 对 信息 的 研究 成 果 。 科 学 的 信息 概念 可 以 概括 如 下 : 
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信息 是 对 客观 世界 中 各 种 事物 的 运动 状态 和 变化 的 反映 ,是 客观 事物 之 间 相互 联系 
和 相互 作用 的 表征 ,表现 的 是 客观 事物 运动 状态 和 变化 的 实质 内 容 。 

信息 技术 是 指 有 关 信 息 的 收集 ,识别 ,提取 变换、 存储 ,传递 .处理 ,检索 、 检 测 、 分 析 
和 利用 等 的 技术 。 凡 涉及 这 些 过 程 和 技术 的 工作 部 门 都 可 称 作 信息 部 门 。 


1.2.2 信息 资源 


只 要 事物 之 间 的 相互 联系 和 相互 作用 的 存在 ,就 有 信息 发 生 。 人 类 社会 的 一 切 活动 
都 离 不 开 信 息 ,信息 具有 使 用 价值 ,能 够 满足 人 们 的 特殊 需要 ,可 以 用 来 为 社会 服务 。 但 
是 ,认识 到 信息 是 一 种 独立 的 资源 还 是 20 世纪 80 年 代 以 来 的 事情 。 

美国 哈佛 大 学 的 研究 小 组 给 出 了 著名 的 资源 三 角形 。 信息 
他 们 指出 : 没有 物质 ,什么 都 不 存在 ;没有 能 量 , 什 么 都 不 
会 发 生 ;没有 信息 ,任何 事物 都 没有 意义 。 资 源 三 角形 图 
示 如 图 1.3 所 示 。 

作为 资源 ,物质 为 人 们 提供 了 各 种 各 样 的 材料 ;能 量 
提供 各 种 各 样 的 动力 ;信息 提供 各 种 各 样 的 知识 。 

信息 是 普遍 存在 的 ,但 并 非 所 有 的 信息 都 是 资源 。 只 
有 满足 一 定 条 件 的 信息 才能 构成 资源 。 对 于 信息 资源 ,有 狭义 和 广义 之 分 : 

狭义 的 信息 资源 , 指 的 是 信息 本 身 或 信息 内 容 , 即 经 过 加 工 处 理 , 对 决策 有 用 的 数据 。 
开发 利用 信息 资源 的 目的 就 是 为 了 充分 发 挥 信息 的 效用 ,实现 信息 的 价值 。 

广义 的 信息 资源 , 指 的 是 信息 活动 中 各 种 要 素 的 总 称 。“ 要 素 ” 包 括 信息 .信息 技术 以 
及 相应 的 设备 ,资金 和 人 等 。 

狭义 的 观点 突出 了 信息 是 信息 资源 的 核心 要 素 ,但 忽略 了 “系统 ”"。 事 实 上 ,如 果 只 有 
核心 要 素 ,而 没有 “支持 ”部 分 (技术 ,设备 等 ) ,就 不 能 进行 有 机 的 配置 ,不 能 发 挥 信息 作为 
资源 的 最 大 效用 。 

归纳 起 来 ,可 以 认为 ,信息 资源 由 信息 生产 者 、 信 息 、 信 息 技术 三 大 要 素 组 成 。 

(1) 信息 生产 者 是 为 了 某 种 目的 的 生产 信息 的 劳动 者 ,包括 原始 信息 生产 者 、 信 息 加 
工 者 或 信息 再 生产 者 。 

(2) 信息 既是 信息 生产 的 原料 ,也 是 产品 。 它 是 信息 生产 者 的 劳动 成 果 , 对 社会 各 种 
活动 直接 产生 效用 ,是 信息 资源 的 目标 要 素 。 

(3) 信息 技术 是 能 够 延长 或 扩展 人 的 信息 能 力 的 各 种 技术 的 总 称 , 是 对 声音 、 图 像 、 
文字 等 数据 和 各 种 传 感 信号 的 信息 进行 收集 .加 工 、 存 储 、 传 递 和 利用 的 技术 。 信 息 技术 
作为 生产 工具 ,对 信息 收集 ,加工 存储 和 传递 提供 支持 与 保障 。 

1. 特点 

信息 资源 与 自然 资源 ,物质 资源 相 比 ,具有 以 下 几 个 特点 : 

(1) 能 够 重复 使 用 ,其 价值 在 使 用 中 得 到 体现 。 

(2) 信息 资源 的 利用 具有 很 强 的 目标 导向 ,不 同 的 信息 在 不 同 的 用 户 中 体现 不 同 的 
价值 。 
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(3) 具有 整合 性 。 人 们 对 其 检索 和 利用 ,不 受 时 间 空间 .语言 .地域 和 行业 的 制约 。 

(4) 它 是 社会 财富 ,任何 人 无 权 全 部 或 永久 买 下 信息 的 使 用 权 ; 它 是 商品 ,可 以 被 销 
售 、 贸 易 和 交换 。 

(5) 具有 流动 性 。 

2. 信息 资源 作为 经 济 资源 的 一 般 特 征 

(1) 作为 生产 要 素 的 人 类 需求 性 。 

(2) 稀缺 性 : 稀缺 性 是 经 济 资源 最 基本 的 经 济 学 特征 。 

(3) 使 用 方向 的 可 选择 性 : 关于 信息 资源 的 有 效 配 置 问题 ,这 是 由 于 信息 资源 具有 
很 强 的 渗透 性 。 


3. 与 物质 资源 ,能 源 资源 相 比 ,具有 一 些 独 有 特征 


(1) 共享 性 。 

(2) 时 效 性 : 只 有 时 机 适宜 ,才能 发 挥 效 益 。 

(3) 动态 性 : 信息 资源 是 一 种 动态 资源 ,呈现 不 断 丰富 .不断 增 长 的 趋势 。 

(4) 不 可 分 性 : 信息 的 不 可 分 性 表现 在 它 在 生产 过 程 中 的 不 可 分 。 

(5) 不 同一 性 : 作为 资源 的 信息 必定 是 完全 不 同一 的 。 

(6) 支配 性 ( 即 驾 驭 性 ) : 支配 性 是 指 信息 资源 具有 开发 和 支配 其 他 资源 的 能 力 。 


1.2.3 信息 的 应 用 意义 


如 果 说 结构 化 信息 更 多 地 忠实 .详实 地 记录 了 企业 的 生产 交易 活动 ,是 显 性 的 表示 ， 
那么 非 结构 化 信息 则 隐 性 包含 了 掌握 着 企业 命脉 的 关键 , 隐 含 着 许多 提高 企业 效益 的 机 
会 。 对 于 企业 来 说 ,企业 内 部 ,以 及 企业 与 供应 商 、 客 户 、 合 作 伙伴 和 员工 数字 化 共享 所 有 
形式 的 数据 资源 ,已 越 来 越 重要 。 

90% 的 信息 和 知识 在 “结构 化 ”世界 之 外 ,IT 应 用 中 还 存在 着 一 个 * 非 结构 化 的 世 
界 。 对 大 多 数 企 业 来 说 ,ERP 等 业务 系统 所 管理 的 结构 化 数据 只 占 到 企业 全 部 信息 和 知 
识 的 10% 左 右 ,其 他 的 90% 都 是 数据 库 难以 存 取 到 的 非 结构 化 信息 和 知识 。 

来 自 IDC 的 分 析 显 示 , 虽 然 很 多 企业 投资 不 菲 建立 了 诸多 业务 支撑 系统 ,但 仍 有 
72% 的 管理 者 认为 知识 没有 在 他 们 的 组 织 得 到 重复 利用 ,88% 的 人 认为 他 们 没有 接触 到 
企业 最 佳 实践 的 机 会 。Gartner 也 曾 预言 ,对 非 结 构 化 信息 和 知识 的 管理 将 会 带 来 一 个 
新 IT 应 用 潮流 。 

非 结 构 化 信息 处 理 类 似 于 20 世纪 70 年 代 以 前 的 结构 化 信息 应 用 。 制 裂 .无 法 进行 
数据 互 操作 的 应 用 是 其 主流 。 以 人 们 最 常用 的 文档 软件 来 看 ,DOC 文档 是 Word 的 专用 
格式 ,WPS、 永 中 .中 文 2000 等 Office 产品 厂商 则 各 有 各 的 “自留地 >”。 这 种 情况 下 ,由 于 
文档 格式 的 束缚 而 使 信息 四 分 五 型, 信息 流 无 法 通畅 流转 ,信息 处 理 更 加 困难 ,信息 资源 
因为 “信息 流 的 不 通畅 "而 表 失 了 其 应 有 的 巨大 价值 。 

从 非 结 构 化 到 半 结 构 化 ,从 半 结 构 化 到 结构 化 ,从 结构 化 到 关联 数据 体系 ,从 关联 数 
据 体系 到 数据 挖掘 ,从 数据 挖掘 到 故事 化 呈现 ,从 故事 化 呈现 到 决策 导向 ,是 信息 资源 应 
用 的 几 个 不 同 发 展 阶 段 。 
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1.3 大 数据 
1.3.1 大 数据 发 展 历史 
1. 大 数据 出 现 的 背景 


2012 年 以 来 ,大 数据 (big data) 一 词 越 来 越 多 地 被 提 及 ,人 们 用 它 来 描述 和 定义 信息 
爆炸 时 代 产生 的 海量 数据 ,并 命名 与 之 相关 的 技术 发 展 与 创新 。 它 已 经 上 过 (纽约 时 报 》 
《华尔街 日 报 》 的 专栏 封面 ,进入 美国 白宫 官网 的 新 闻 , 现 身 在 国内 一 些 互联 网 主题 的 讲座 
沙龙 中 ,甚至 被 嗅觉 灵敏 的 证 券 公司 等 写 进 了 投资 推荐 报告 。 

数据 正在 迅速 膨胀 并 变 大 , 它 决 定 着 企业 的 未 来 发 展 ,虽然 现在 企业 可 能 并 没有 意识 
到 数据 爆炸 性 增长 带 来 问题 的 隐患 ,但 是 随 着 时 间 的 推移 ,人 们 将 越 来 越 多 地 意识 到 数据 
对 企业 的 重要 性 。 大 数据 时 代 对 人 类 的 数据 驾驭 能 力 提 出 了 新 的 挑战 ,也 为 人 们 获得 更 
为 深刻 ,全 面 的 洞察 能 力 提供 了 前 所 未 有 的 空间 与 潜力 。 

最 早 提出 大 数据 时 代 到 来 的 是 全 球 知名 咨询 公司 麦肯锡 ,麦肯锡 称 :“ 数 据 ,已 经 渗 
透 到 当今 每 一 个 行业 和 业务 职能 领域 ,成 为 重要 的 生产 因素 。 人 们 对 于 海量 数据 的 挖掘 
和 运用 ,预示 着 新 一 波 生 产 率 增 长 和 消费 者 一 余 浪 潮 的 到 来 .”“ 大 数据 ?在 物理 学 .生物 
学 .环境 生态 学 等 领域 以 及 军事 .金融 .通信 等 行业 存在 已 有 时 日 , 却 因为 近年 来 互联 网 和 
信息 行业 的 发 展 而 引起 人 们 关注 。 

大 数据 在 互联 网 行业 指 的 是 这 样 一 种 现象 : 互联 网 公司 在 日 常 运营 中 生成 .累积 的 
用 户 网 络 行为 数据 。 这 些 数 据 的 规模 是 如 此 庞大 ,以 至 于 不 能 用 G 或 工 来 衡量 ,大 数据 
的 起 始 计量 单位 至 少 是 P(1000 个 T) E(100 万 个 T) 或 Z(10 亿 个 T)。 


2. 互联 网 背景 下 出 现 的 大 数据 


1) 越 来 越 多 的 私有 化 的 Web 化 数据 

电 商 网 站 ,BBS、 知 乎 问答 、 互 动 百科 、 豆 辩 电 影 等 内 容 便 是 属于 此 类 。 垂 直 网 站 在 达 
到 一 定 规模 后 ,拥有 与 搜索 引擎 博弈 的 能 力 时 , 便 可 屏蔽 搜索 引擎 的 候 虫 ,将 自己 的 数据 
“私有 化 ”。 

垂直 网 站 提供 的 搜索 功能 ,可 以 用 个 性 化 的 搜索 功能 和 独 有 的 挖掘 能 力 ,提供 更 好 的 
搜索 体验 。 甚 至 上 升 为 垂直 搜索 引擎 ,如 知 乎 搜索 。 另 外 一 种 垂直 搜索 引擎 即 是 综合 其 
他 垂直 的 结构 化 数据 ,提供 搜索 服务 ,如 去 哪儿 、 一 淘 。 

随 着 Web 的 发 展 , 垂 直 搜 索 是 未 来 搜索 引擎 细 分 的 一 个 方向 , 且 将 对 传统 搜索 引擎 
构成 威胁 。 类 似 手机 上 浏览 器 和 原生 APP 之 间 的 关系 : 浏览 器 和 APP 流量 对 半分 。 我 
们 把 传统 搜索 引擎 (如 百度 ) 看 成 这 一 个 浏览 器 ,那么 垂直 搜索 引擎 便 是 APP。 垂 直 搜索 
引擎 也 如 APP 一 样 正 在 壮大 。 且 他 们 具有 的 核心 优势 都 是 : 个 性 化 VS 统一 的 优势 。 

如 果 说 Web 数据 私有 化 使 前 面 提 到 的 “Web 化 的 信息 ,能 抓 取 : 不 能 抓 取 的 约 为 
1 : 500” 这 个 比率 发 生变 化 。 下 面 要 谈 的 将 影响 “不 到 1% 的 信息 Web 化 ”的 1%。 

2) 巨 量 增长 的 没有 Web 化 的 数据 

随 着 10 多 年 的 发 展 ,PC 互联 网 已 积累 大 量 的 数据 ;而 在 移动 互联 网 的 浪潮 下 ,APP、 


人 


云 应 用 ,社交 和 物 联网 让 数据 爆炸 式 增长 。 对 搜索 引擎 来 说 ,这 些 数据 几乎 都 是 不 可 


瑟 
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(1) 人 工整 理 的 数据 。 

药 监 局 的 数据 就 是 例子 。 这 类 数据 集中 存在 于 政府 部 门 .机 构 组 织 和 一 些 企业 手 里 。 
他 们 手 里 既 掌握 着 民众 关心 的 权威 民生 数据 ,又 暂时 没有 将 这 些 数据 通过 网 站 开放 出 来 。 
与 此 类 似 的 拥有 数据 的 还 有 交通 部 门 .环保 部 门 .旅游 局 .卫生 局 ,教育 局 等 民众 关注 的 各 
个 领域 。 经 过 十 多 年 的 信息 化 建设 ,这 些 数据 想必 已 经 达到 可 观 的 量 级 。 

男 外 ,“ 我 查 查 ”的 条 形 码 数据 也 可 归 为 此 类 。 我 查 查 团队 创业 初期 , 数 百人 团队 在 全 
国 商场 收集 商品 条 形 码 数据 。 我 查 查 有 一 定 规模 后 ,用 户 才 主动 为 其 添加 条 形 码 数据 。 

(2) 社交 产生 的 数据 。 

这 里 的 社交 网 络 不 仅仅 指 微 博 或 人 人 网 。QQ 聊天 也 是 一 种 社交 。 邮 件 也 是 一 种 社 
交 。 甚 至 短信 通信 也 是 一 种 社交 。 我 们 不 妨 将 这 称 为 “ 暗 社交 ”。 这 些 社交 过 程 又 产生 了 
大 量 的 信息 ,尤其 是 分 享 行为 。 一 定 程度 上 部 分 社交 网 站 的 数据 是 Web 化 的 ,但 是 它们 
是 封闭 的 。 这 部 分 数据 正在 巨 量 增长 ,而 搜索 引擎 对 它们 无 能 为 力 。 

(3) APP 产生 的 数据 。 

有 人 曾经 抛 出 过 “Web 已 死 " 的 说 法 。 移 动 互联 网 已 经 不 再 是 由 Web 通过 超 链 接 互 
相连 接 的 网 络 。APP 之 间 通 过 接口 互相 链接 ,APP 上 的 不 同 用 户 通 过 QQ 好 友 关 系 、 微 
信 圈 、 微 博 关注 关系 .手机 号 码 等 方式 互相 链接 。 而 传统 搜索 引擎 正 是 基于 超 链接 的 。 带 
来 的 实际 问题 就 是 ,搜索 引擎 如 何 搜索 喇 喇 等 APP 的 数据 ? 

(4) 个 人 云 应 用 产生 的 数据 。 

个 人 云 应 用 主要 是 解决 多 屏 同步 的 问题 。 这 让 更 多 用 户 选 择 将 数据 保存 在 云端 。 在 
不 同 设备 上 进行 账号 认证 后 下 载 并 使 用 这 些 数据 。 这 类 应 用 除了 同步 通讯 录 ,收藏 夹 这 
类 私密 性 强 的 数据 外 ,还 有 印象 笔记 ,网 易 云 阅读 等 类 型 的 大 文本 数据 。 个 人 云 应 用 将 越 
来 越 多 。 若 干 年 后 ,我 们 认为 Office 提供 云 同步 功能 也 不 是 没 可 能 。 这 些 数据 ,搜索 引 
擎 无 能 为 力 。 

(5) 物 联网 产生 的 数据 。 

车 联网 、 监 控 录 像 . 电 子 抄 表 , 水 文 监测 等 物 联网 应 用 每 时 每 刻 也 在 产生 大 量 的 数据 。 
这 个 行业 还 没 爆 发 。 爆 发 的 时 候 ,应 用 也 不 会 局 限于 此 。 互 联网 链接 网 页 ,移动 互联 网 链 
接 天 下 芸芸 众生 ,而 物 联网 ,链接 天 下 万 物 。 现 在 中 国 的 手机 用 户 数 突破 11 亿 。 靶 靶 
生 基 本 已 连 起 来 。 不 过 相 比 11 亿 , 物 联网 用 户 数 则 是 一 个 惊人 的 量 级 。 这 些 “ 用 户 ” 也 将 
产生 大 量 的 数据 。 这 些 数据 将 来 是 否 要 被 人 类 搜索 ?以 什么 形式 搜索 ? 搜索 的 结果 是 
什么 ? 


1.3.2 大 数据 的 定义 和 特点 


信息 技术 领域 原先 已 经 有 “海量 数据 “大 规模 数据 ”等 概念 ,但 这 些 概 念 只 着 眼 于 数 
据 规模 本 身 ,未 能 充分 反映 数据 爆发 背景 下 的 数据 处 理 与 应 用 需求 ,而 “大 数据 ”这 一 新 概 
念 不 仅 指 规模 庞大 的 数据 对 象 ,也 包含 对 这 些 数 据 对 象 的 处 理 和 应 用 活动 ,是 数据 对 象 、 
技术 与 应 用 三 者 的 统一 。 
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1. 大 数据 (Big Data, 巨 量 数据 集合 ,IT 行业 术语 ) 


大 数据 或 称 巨 量 资料 , 指 的 是 所 涉及 的 资料 量规 模 巨大 到 无 法 通过 目前 主流 软件 工 
具 , 在 合理 时 间 内 达到 撒 取 ,管理 .处理 , 并 整理 成 为 帮助 企业 经 营 决策 更 积极 目的 的 资 
讯 。 大 数据 对 象 既 可 能 是 实际 的 有 限 的 数据 集合 ,如 某 个 政府 部 门 或 企业 掌握 的 数据 
库 , 也 可 能 是 虚拟 的 、 无 限 的 数据 集合 ,如 微 博 、 微 信 、 社 交 网 络 上 的 全 部 信息 。 

在 维克托 。 迈 尔 - 舍 恩 伯 格 及 肯 尼 斯 ." 库 克 耶 编写 的 (大 数据 时 代 ) 中 ,大 数据 是 指 不 
用 随机 分 析 法 (抽样 调查 ) 这 样 的 捷径 ,而 采用 所 有 数据 进行 分 析 处 理 。 

对 于 “大 数据 ”研究 机 构 Gartner 给 出 了 这 样 的 定义 .。“ 大 数据 ?是 需要 新 处 理 模式 才 
能 具有 更 强 的 决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 多 样 化 的 信息 
资产 ; 

根据 维基 百科 的 定义 ,“ 大 数据 "是 一 个 体 量 特别 大 ,数据 类 别 特 别 大 的 数据 集 ,是 指 
无 法 在 可 承受 的 时 间 范 围 内 用 传统 数据 库 工具 对 其 内 容 进 行 抓 取 、 管 理 和 处 理 的 数据 
集合 。 

大 数据 从 本 质 上 来 讲 包 含 数 量 、 类 型 .速度 3 个 维度 的 问题 ,事实 上 ,要 想 从 根本 上 区 
别 这 3 个 维度 是 不 可 能 的 。 因 为 ,大 数据 概念 的 提出 是 源 于 技术 的 发 展 。 大 数据 的 本 质 
构建 如 图 1.4 所 示 。 








速度 
数据 产生 速率 
处 理 数据 方式 : 批量 数据 一 流 数据 
大 数据 
数量 
PB 一 ZB 
类 型 结构 化 一 半 结 构 化 、 非 结构 化 


1.4 大 数据 的 本 质 构建 


“大 数据 ”首先 是 指数 据 体 量 (Volumes) 大 , 指 大 型 数据 集 ,一 般 在 10TB 规模 左右 ， 
但 在 实际 应 用 中 ,很 多 企业 用 户 把 多 个 数据 集 放 在 一 起 ,已 经 形成 了 PB 级 的 数据 量 。 

其 次 是 指数 据 类 别 (Variety) 大 ,数据 来 自 多 种 数据 源 , 数 据 种 类 和 格式 日 渐 丰 富 ,已 
冲破 了 以 前 所 限定 的 结构 化 数据 范畴 , 圳 括 了 半 结 构 化 和 非 结构 化 数据 。 

接着 是 数据 处 理 速度 (Velocity) 快 ,在 数据 量 非常 庞大 的 情况 下 ,也 能 够 做 到 数据 的 
实时 处 理 。 

最 后 一 个 特点 是 指数 据 真实 性 (Veracity) 高 , 随 着 社交 数据 .企业 内 容 、 交 易 与 应 用 
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数据 等 新 数据 源 的 兴趣 ,传统 数据 源 的 局 限 被 打破 ,企业 愈 发 需要 有 效 的 信息 之 力 以 确保 
其 真实 性 及 安全 性 。 


2. 大 数据 的 实质 


从 狭义 的 字面 含义 理解 , 它 应 该 与 小 数据 相对 应 ,大 数据 意 指数 据 量 特别 巨大 ,超出 
了 我 们 常规 的 处 理 能 力 ,必须 引入 新 的 科学 工具 和 技术 手段 才能 够 进行 处 理 的 数据 集合 。 

所 谓 的 小 数据 , 指 的 是 数据 规模 比较 小 ,用 传统 工具 和 方法 足以 进行 处 理 的 数据 集 
合 。 比 如 牛顿 时 代 的 各 门 自然 科学 ,其 数据 量 都 不 大 ,第 谷 观测 了 20 年 的 天 文 数据 , 开 普 
勤 很 快 用 手工 就 处 理 完毕 ,并 从 中 发 现 了 开 普 勒 定律 。 后 来 , 随 着 科学 的 发 展 ,数据 量 有 
了 比较 大 的 增加 ,为 了 处 理 这 些 当 时 看 来 的 “大 数据 ,统计 学 家 创造 了 抽样 方法 ,由 此 解 
决 了 数据 处 理 难 题 。 

大 数据 技术 的 战略 意义 不 在 于 掌握 庞大 的 数据 信息 ,而 在 于 对 这 些 含有 意义 的 数据 
进行 专业 化 处 理 。 换 言 之 ,如 果 把 大 数据 比 作 一 种 产业 ,那么 这 种 产业 实现 一 利 的 关键 ， 
在 于 提高 对 数据 的 “加 工 能 力 ”, 通 过 “加 工 ” 实 现 数据 的 “增值 ”。 

从 技术 上 看 ,大 数据 与 云 计算 的 关系 就 像 一 枚 硬币 的 正 反面 一 样 密 不 可 分 。 大 数据 
必然 无 法 用 单 台 的 计算 机 进行 处 理 , 必 须 采用 分 布 式 架构 。 它 的 特色 在 于 对 海量 数据 进 
行 分 布 式 数据 挖掘 ,但 它 必须 依托 云 计 算 的 分 布 式 处 理 , 分 布 式 数据 库 和 云 存 储 、 虚 拟 化 
技术 。 

随 着 云 时 代 的 来 临 ,大 数据 (Big data) 也 吸引 了 越 来 越 多 的 关注 。 大 数据 (Big data) 
通常 用 来 形容 一 个 公司 创造 的 大 量 非 结构 化 数据 和 半 结 构 化 数据 ,这 些 数据 在 下 载 到 关 
系 型 数据 库 用 于 分 析 时 会 花费 过 多 的 时 间 和 人 金钱。 

大 数据 分 析 常 和 云 计算 联系 到 一 起 ,因为 实时 的 大 型 数据 集 分 析 需 要 像 云 计 算 的 框 
架 来 向 数 十 、 数 百 或 甚至 数 千 的 计算 机 分 配 工作 。 

大 数据 需要 特殊 的 技术 ,以 有 效 地 处 理 大 量 的 可 容忍 时 间 内 的 数据 。 适 用 于 大 数据 
的 技术 ,包括 大 规模 并 行 处 理 (MPP) 数 据 库 数据 挖掘 、 分 布 式 文件 系统 ,分布 式 数据 库 、 
云 计算 平台 互联 网 和 可 扩展 的 存储 系统 。 


3. 大 数据 的 特点 


业界 通常 用 4 个 V( 即 Volume、Variety、Value、Velocity) 来 概括 大 数据 的 特征 。 具 
体 来 说 ,大 数据 具有 4 个 基本 特征 : 

第 一 ,Volume( 大 量 ) ,数据 体 量 巨大 ,从 TB 级别, 跃升 到 PB 级 别 。 

数据 体 量 (volumes) 大 , 指 大 型 数据 集 ,一 般 在 10TB 规模 左右 ,但 在 实际 应 用 中 ,很 
多 企业 用 户 把 多 个 数据 集 放 在 一 起 ,已 经 形成 了 PB 级 的 数据 量 ; 百度 资料 表明 ,其 首页 
导航 每 天 需要 提供 的 数据 超过 1. 5PB(1PB 二 1024TB) ,这 些 数据 如 果 打 印 出 来 将 超过 5 
千 亿 张 A4 纸 。 有 资料 证 实 , 到 目前 为 止 , 人 类 生产 的 所 有 印刷 材料 的 数据 量 仅 
为 200PB。 

第 二 ,Variety( 多 样 ) ,数据 类 别 大 和 类 型 多 样 , 即 数据 类 型 繁多 。 除 了 标准 化 的 结构 
化 编码 数据 之 外 ,还 包括 网 络 日 志 、 视 频 ,图 片 . 地 理 位 置信 息 等 等 非 结构 化 或 无 结构 
数据 。 
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数据 来 自 多 种 数据 源 ,数据 种 类 和 格式 日 渐 丰 富 ,已 冲破 了 以 前 所 限定 的 结构 化 数据 
范畴 , 宫 括 了 半 结 构 化 和 非 结 构 化 数据 。 现 在 的 数据 类 型 不 仅 是 文本 形式 ,更 多 的 是 图 
片 ` 视 频 、 音 频 . 地 理 位 置信 息 等 多 类 型 的 数据 ,个 性 化 数据 占 绝 对 多 数 。 

第 三 ,Value( 价 值 ) ,价值 真实 性 高 和 密度 低 , 即 商业 价值 高 ,但 价值 密度 低 。 在 数据 
的 海洋 中 不 断 寻 找 ,才能 “ 淘 ” 出 一 些 有 价值 的 东西 ,可 谓 “ 沙 里 淘金 ”。 

随 着 社交 数据 .企业 内 容 ,交易 与 应 用 数据 等 新 数据 源 的 兴起 ,传统 数据 源 的 局 限 被 
打破 ,企业 愈 发 需要 有 效 的 信息 之 力 以 确保 其 真实 性 及 安全 性 。 以 视频 为 例 ,一 小 时 的 视 
频 , 在 不 间断 的 监控 过 程 中 ,可 能 有 用 的 数据 仅仅 只 有 一 两 秒 。 

第 四 , Velocity( 高 速 ) ,处 理 速度 快 , 即 处 理 速度 快 ,实时 在 线 。 各 种 数据 基本 上 实 
时 、 在 线 , 并 能 够 进行 快速 的 处 理 、 传 送 和 存储 ,以 便 全 面 反映 对 象 的 当下 状况 。 

在 数据 量 非常 庞大 的 情况 下 ,也 能 够 做 到 数据 的 实时 处 理 。 数 据 处 理 遵循 “1 秒 定 
律 ”, 可 从 各 种 类 型 的 数据 中 快速 获得 高 价值 的 信息 。 

有 人 把 数据 比喻 为 蕴藏 能 量 的 煤矿 。 煤 炭 按照 性 质 有 焦煤 ,无 烟煤 、 肥 煤 、 贫 煤 等 分 
类 ,而 露天 煤矿 、 深 山 煤 矿 的 挖掘 成 本 又 不 一 样 。 与 此 类 似 ,大 数据 并 不 在 “大 ”, 而 在 于 
“有 用 ”。 价 值 含量 ,挖掘 成 本 比 数量 更 为 重要 。 对 于 很 多 行业 而 言 , 如 何 利用 这 些 大 规模 
数据 成 为 赢得 竞争 的 关键 。 

大 数据 的 价值 体现 在 以 下 几 个 方面 : 

(1) 对 大 量 消 费 者 提供 产品 或 服务 的 企业 可 以 利用 大 数据 进行 精准 营销 ; 

(2) 做 小 而 美 模式 的 中 小 型 企业 可 以 利用 大 数据 做 服务 转型 ; 

(3) 面临 互联 网 压力 之 下 必须 转型 的 传统 企业 需要 与 时 俱 进 充分 利用 大 数据 的 
价值 。 


4. 大 数据 能 做 和 不 能 做 的 事 


1) 大 数据 可 以 做 到 的 事情 

(1) 诊断 分 析 。 

我 们 每 天 都 在 做 这 个 事情 。 机 器 更 擅长 做 这 个 。 当 一 个 事件 发 生 的 时 候 , 我 们 发 现 
对 寻找 起 因 感 兴趣 。 比 如 ,设想 在 沙漠 A 刊 起 了 沙 暴 , 我 们 有 沙漠 A 地 区 的 各 种 参数 ， 
温度 气压、 骆驼 、 道 路 .汽车 等 等 。 如 果 我 们 能 将 这 些 参数 跟 该 地 区 的 沙 暴 联系 起 来 ,如 
果 我 们 知道 一 些 因果 关系 ,可 能 就 会 避免 沙 暴 。 

(2) 预测 分 析 。 

我 们 经 常 做 这 个 事情 。 比 如 ,我 们 在 全 球 有 一 个 酒店 连锁 。 现 在 我 们 需要 找 出 哪些 
酒店 是 没有 达到 销售 目标 的 。 如 果 知 道 相关 信息 ,我 们 就 可 以 将 努力 集中 在 那些 日 标 身 
上 。 这 成 为 预测 分 析 的 经 典 问 题 。 

(3) 在 未 知 元 素 间 寻找 关联 。 

进行 分 析 ,在 未 知 元 素 间 寻找 关联 。 比 方 说 销售 雇员 的 数量 跟 销售 额 真 的 没有 关系 
吗 ? 你 可 能 会 减少 一 些 雇员 来 看 看 是 否 真 的 对 销售 额 没 有 损失 。 

(4) 规范 的 分 析 。 

这 是 分 析 学 的 未 来 。 比 如 说 我 们 尝试 着 预测 一 个 对 大 众 目 标的 丽 怖 袭击 然后 安全 地 


上 


将 人 们 转移 的 策略 ,你 需要 做 出 在 某 个 时 候 某 个 地 点 的 游客 人 数 以 及 可 能 会 被 爆炸 所 影 
响 到 的 地 区 等 各 种 预测 。 

(5) 监控 发 生 的 事件 。 

行业 中 的 大 部 分 人 都 在 做 监控 事件 的 工作 。 比 如 ,你 需要 检测 一 个 活动 的 反馈 ,找到 
强烈 和 不 强烈 的 部 分 。 这 些 分 析 将 成 为 运营 一 个 企业 的 关键 。 

2) 大 数据 不 可 以 做 到 的 事情 

(1) 预测 一 个 确定 的 未 来 。 

使 用 机 器 学 习 的 工具 可 以 达到 90% 的 精度 ,但 是 无 法 达到 100% 的 准确 。 如 果 我 们 
可 以 做 到 的 话 ,我 可 以 确切 地 告诉 你 谁 才 是 目标 以 及 每 一 次 100% 的 响应 率 。 但 可 惜 的 
是 这 绝 不 会 发 生 。 

(2) 归 知 于 新 的 数据 源 。 

在 任何 分 析 上 ,数据 处 理 耗费 了 大 部 分 时 间 。 我 相信 这 就 是 你 的 创造 力 和 商业 理解 
的 来 源 。 但 可 能 的 是 ,你 无 法 摆脱 分 析 中 最 无 聊 的 部 分 。 

(3) 找到 一 个 商业 问题 的 创新 的 解决 方案 。 

创造 力 是 人 类 永远 的 专利 。 没 有 机 器 可 以 找到 问题 的 创新 的 解决 方法 。 这 是 因为 即 
使 是 人 工 智能 也 是 由 人 们 去 编码 的 产物 ,创造 力 是 不 会 从 算法 自己 学 习 而 来 的 。 

(4) 找到 定义 不 是 很 明确 的 问题 的 解决 方法 。 

分 析 学 最 大 的 挑战 就 是 从 业务 问题 中 形成 一 个 分 析 问 题 模型 。 如 果 你 能 做 得 很 好 ， 
那么 你 正在 成 为 一 个 分 析 明 星 。 这 种 角色 是 机 器 无 法 取代 的 。 比 如 ,你 的 业务 问题 是 管 
理 损 耗 。 除 非 定义 了 响应 者 .时间 窗口 等 ,没有 预测 算法 可 以 帮 你 。 

(5) 数据 管理 /简化 新 数据 源 的 数据 。 

随 着 数据 量 的 增长 ,数据 的 管理 正在 成 为 一 个 难题 。 我 们 正在 处 理 各 种 不 同 结构 化 
的 数据 。 比 如 ,图 表 数 据 可 能 更 适合 网 络 分 析 , 但 是 对 活动 数据 是 没 用 的 。 这 部 分 信息 也 
是 机 器 无 法 分 析 的 。 

5. 大 数据 的 分 类 

(1) 按照 数据 分 析 的 实时 性 ,分 为 实时 数据 分 析 和 离线 数据 分 析 两 种 。 

Q@ 实时 数据 分 析 。 

实时 数据 分 析 一 般 用 于 金融 ,移动 和 互联 网 B2C 等 产品 ,往往 要 求 在 数秒 内 返回 上 
亿 行 数据 的 分 析 , 从 而 达到 不 影响 用 户 体验 的 目的 。 要 满足 这 样 的 需求 ,可 以 使 用 海量 数 
据 实时 分 析 工 具 , 采 用 精心 设计 的 传统 关系 型 数据 库 组 成 并 行 处 理 集群 ,或 者 采用 一 些 内 
存 计 算 平台 ,或 者 采用 HDD 的 架构 ,这 些 无 疑 都 需要 比较 高 的 软 硬 件 成 本 。 互 联网 企业 
的 海量 数据 采集 工具 , 均 可 以 满足 每 秒 数 百 “MB” 的 日 志 数据 采集 和 传输 需求 ,并 将 这 些 
数据 上 载 到 中 央 系 统 上 。 

@ 离线 数据 分 析 。 

对 于 大 多 数 反馈 时 间 要 求 不 是 那么 严 苛 的 应 用 ,比如 离线 统计 分 析 、 机 器 学 习 、 搜 索 
引擎 的 反 向 索引 计算 ,推荐 引擎 的 计算 等 ,应 采用 离线 分 析 的 方式 ,通过 数据 采集 工具 将 
日 志 数 据 导 入 专用 的 分 析 平 台 。 但 面 对 海 量 数据 ,传统 的 数据 处 理工 具 往往 会 彻底 失效 ， 
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主要 原因 是 数据 格式 转换 的 开销 太 大 ,在 性 能 上 无 法 满足 海量 数据 的 采集 需求 。 

(2) 按照 大 数据 的 数据 量 , 分 为 内 存 级 别 、 海 量 级 别 三 种 、 商 业 智 能 (BD 级 别 。 

中 内 存 级 别 。 

这 里 的 内 存 级 别 指 的 是 数据 量 不 超过 集群 的 内 存 最 大 值 。 不 要 小 看 今天 内 存 的 容 
量 ,Facebook 缓存 在 内 存 的 中 的 数据 高 达 320TB, 而 目前 的 PC 服务 器 ,内 存 也 可 以 超过 
百 “GB”。 因 此 可 以 采用 一 些 内 存 数 据 库 ,将 热点 数据 常 驻 内 存 之 中 ,从 而 取得 非常 快速 
的 分 析 能 力 ,非常 适合 实时 分 析 业 务 。 

@ 海量 级 别 。 

海量 级 别 指 的 是 对 于 数据 库 和 商业 智能 产品 已 经 完全 失效 或 者 成 本 过 高 的 数据 量 。 
海量 数据 级 别 的 优秀 企业 级 产品 也 有 很 多 ,但 基于 软 硬 件 的 成 本 原因 ,目前 大 多 数 互联 网 
企业 采用 Hadoop 的 HDFS 分 布 式 文件 系统 来 存储 数据 ,并 使 用 MapReduce 进行 分 析 。 

@@ 商业 智能 (BD 级 别 。 

BI 级 别 指 的 是 那些 对 于 内 存 来 说 太 大 的 数据 量 ,但 一 般 可 以 将 其 放 入 传统 的 BI 产 
品 和 专门 设计 的 BI 数据 库 之 中 进行 分 析 。 目 前 主流 的 BI 产品 都 有 支持 TB 级 以 上 的 数 
据 分 析 方 案 。 


1.4 大 数据 技术 的 基本 概念 


1.4.1 传统 数据 处 理 


大 数据 处 理 数据 时 代理 念 的 三 大 转变 : 要 全 体 不 要 抽样 ,要 效率 不 要 绝对 精确 ,要 相 
关 不 要 因果 。 具 体 的 传统 大 数据 处 理 方法 其 实 有 很 多 ,但 是 根据 长 时 间 的 实践 ,总 结 了 一 
个 基本 的 大 数据 处 理 流程 ,并 且 这 个 流程 应 该 能 够 对 大 家 理 顺 大 数据 的 处 理 有 所 帮助 。 
整个 处 理 流程 可 以 概括 为 四 步 ,分 别 是 采集 . 导 和 人 和 预 处 理 、 统 计 和 分 析 以 及 数据 挖掘 。 

1. 采集 

大 数据 的 采集 是 指 利用 多 个 数据 库 来 接收 发 自 客户 端的 数据 ,并 且 用 户 可 以 通过 这 
些 数据 库 来 进行 简单 的 查询 和 处 理工 作 。 比 如 , 电 商 会 使 用 传统 的 关系 型 数据 库 
MySQL 和 Oracle 等 来 存储 每 一 笔 事 务 数 据 , 除 此 之 外 , Redis 和 MongoDB 这 样 的 
NoSQL 数据 库 也 常用 于 数据 的 采集 。 

在 大 数据 的 采集 过 程 中 ,其 主要 特点 和 挑战 是 并 发 数 高 ,因为 同时 有 可 能 会 有 成 千 上 
万 的 用 户 来 进行 访问 和 操作 ,比如 火车 票 售票 网 站 和 淘宝 ,它们 并 发 的 访问 量 在 峰值 时 达 
到 上 百 万 ,所 以 需要 在 采集 端 部 署 大 量 数据 库 才能 支撑 。 并 且 要 对 如 何在 这 些 数据 库 之 
间 进 行 负载 均衡 和 分 片 进行 深入 的 思考 和 设计 。 

2. 统计 /分 析 


统计 与 分 析 主 要 利用 分 布 式 数据 库 ,或 者 分 布 式 计算 集群 来 对 存储 于 其 内 的 海量 数 
据 进行 普通 的 分 析 和 分 类 汇总 等 ,以 满足 大 多 数 常见 的 分 析 需 求 。 在 这 方面 ,一 些 实时 性 
需求 会 用 到 Oracle 的 Exadata, 以 及 基于 MySQL 的 列 式 存储 Infobright 等 ,而 一 些 批 处 
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理 ,或 者 基于 半 结 构 化 数据 的 需求 可 以 使 用 Hadoop。 统 计 与 分 析 这 部 分 的 主要 特点 和 
挑战 是 分 析 涉及 的 数据 量 大 ,对 系统 资源 ,特别 是 IO 会 有 极 大 的 占用 。 

3. 导 人 / 预 处 理 

虽然 采集 端 本 身 会 有 很 多 数据 库 , 但 是 如 果 要 对 这 些 海量 数据 进行 有 效 的 分 析 , 还 是 
应 该 将 这 些 来 自前 端的 数据 导入 到 一 个 集中 的 大 型 分 布 式 数 据 库 ,或 者 分 布 式 存储 集群 ， 
并 且 可 以 在 导入 的 基础 上 做 一 些 简单 的 清洗 和 预 处 理工 作 。 也 有 一 些 用 户 会 在 导入 时 使 
用 来 自 推 特 CTwitter) 的 Storm 来 对 数据 进行 流 式 计算 ,来 满足 部 分 业务 的 实时 计算 需 
求 。 导 入 与 预 处 理 过 程 的 特点 和 挑战 主要 是 导入 的 数据 量 大 ,每 秒 钟 的 导入 量 经 常会 达 
到 百 兆 , 甚 至 千 兆 级 别 。 

4. 数据 挖掘 

与 前 面 统计 和 分 析 过 程 不 同 的 是 ,数据 挖掘 一 般 没有 什么 预先 设 定好 的 主题 ,主要 是 
在 现 有 数据 上 面 进行 基于 各 种 算法 的 计算 ,起 到 预测 的 效果 ,从 而 实现 一 些 高 级 别 数据 分 
析 的 需求 。 比 较 典型 算法 有 用 于 聚 类 的 K-Means、 用 于 统计 学 习 的 SVM 和 用 于 分 类 的 
Naive Bayes, 主 要 使 用 的 工具 有 Hadoop 的 Mahout 等 。 该 过 程 的 特点 和 挑战 主要 是 用 
于 挖掘 的 算法 很 复杂 ,并 且 计 算 涉 及 的 数据 量 和 计算 量 都 很 大 ,还 有 ,常用 数据 挖掘 算法 
都 以 单线 程 为 主 。 


1.4.2 大 数据 分 析 的 方法 理论 


越 来 越 多 的 应 用 涉及 大 数据 ,这 些 大 数据 的 属性 ,包括 数量 、 速 度 、 多 样 性 等 等 都 呈现 
了 大 数据 不 断 增长 的 复杂 性 ,所 以 ,大 数据 的 分 析 方法 在 大 数据 领域 就 显得 尤为 重要 ,可 
以 说 是 决定 最 终 信 息 是 否 有 价值 的 决定 性 因素 。 基 于 此 ,大 数据 分 析 的 方法 理论 有 五 个 
基本 方面 。 

1. 预测 性 分 析 能 力 (Predictive Analytic Capabilities) 

数据 挖掘 可 以 让 分 析 员 更 好 地 理解 数据 ,而 预测 性 分 析 可 以 让 分 析 员 根据 可 视 化 分 
析 和 数据 挖掘 的 结果 做 出 一 些 预测 性 的 判断 。 

2. 数据 质量 和 数据 管理 (Data Quality and Data Management) 

数据 质量 和 数据 管理 是 一 些 管理 方面 的 最 佳 实践 。 通 过 标准 化 的 流程 和 工具 对 数据 
进行 处 理 , 可 以 保证 一 个 预先 定义 好 的 高 质量 的 分 析 结果 。 

3. 可 视 化 分 析 (Analytic Visualizations) 

不 管 是 对 数据 分 析 专 家 还 是 普通 用 户 , 数 据 可 视 化 是 数据 分 析 工具 最 基本 的 要 求 。 
可 视 化 可 以 直观 地 展示 数据 ,让 数据 自己 说 话 ,让 观众 听 到 结果 。 

4. 语义 引擎 (Semantic Engines) 

我 们 知道 由 于 非 结 构 化 数据 的 多 样 性 带 来 了 数据 分 析 的 新 的 挑战 ,我 们 需要 一 系列 
的 工具 去 解析 、 提 取 、 分 析 数 据 。 语 义 引擎 需要 被 设计 成 能 够 从 “文档 ”中 智能 提取 信息 。 
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5. 数据 挖掘 算法 (Data Mining Algorithms) 


可 视 化 是 给 人 看 的 ,数据 挖掘 就 是 给 机 器 看 的 。 集 群 、 分 割 、 孤 立 点 分 析 还 有 其 他 的 
算法 让 我 们 深入 数据 内 部 ,挖掘 有 价值 的 信息 。 这 些 算法 不 仅 要 处 理 大 数据 的 量 ,也 要 处 
理 大 数据 的 速度 。 

假如 大 数据 真 的 是 下 一 个 重要 的 技术 革新 ,那么 我 们 最 好 把 精力 放 在 大 数据 能 给 我 
们 带 来 的 好 处 上 ,而 不 仅仅 是 挑战 。 


1.4.3 大 数据 技术 
1. 大 数据 技术 分 类 


大 数据 带 来 的 不 仅 是 机 遇 , 同 时 也 是 挑战 。 传 统 的 数据 处 理 手段 已 经 无 法 满足 大 数 
据 的 海量 实时 需求 ,需要 采用 新 一 代 的 信息 技术 来 应 对 大 数据 的 爆发 。 我 们 把 大 数据 技 
术 归 纳 为 五 大 类 ,如 表 1. 1 所 示 。 

表 1.1 大 数据 技术 分 类 
大 数据 技术 分 类 大 数据 技术 与 工具 

云 计算 平台 
云 存储 
基础 架构 支持 虚拟 化 技术 


网 络 技术 
资源 监控 技术 


数据 总 线 
ETL 工具 


分 布 式 文件 系统 

关系 型 数据 库 

数据 存储 NoSQL 技术 

关系 型 数据 库 与 非 关系 型 数据 库 融合 
内 存 数据 库 


数据 查询 、 统 计 与 分 析 
数据 预测 与 挖掘 

图 谱 处 理 

BI 商业 智能 


图 形 与 报表 
展现 与 交互 可 视 化 工具 
增强 现实 技术 








数据 采集 








数据 计算 








1) 基础 架构 支持 

基础 架构 支持 主要 包括 为 支撑 大 数据 处 理 的 基础 架构 级 数据 中 心 管理 、 云 计算 平台 、 
云 存储 设备 及 技术 、 网 络 技术 ,资源 监控 等 技术 。 大 数据 处 理 需 要 拥有 大 规模 物理 资源 的 
云 数据 中 心 和 具备 高 效 的 调度 管理 功能 的 云 计算 平台 的 支撑 。 

2) 数据 采集 技术 

数据 采集 技术 是 数据 处 理 的 必 备 条 件 , 首 先 需 要 有 数据 采集 的 手段 ,把 信息 收集 上 
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来 ,才能 应 用 上 层 的 数据 处 理 技术 。 数 据 采 集 除 了 各 类 传 感 设备 等 硬件 软件 设施 之 外 , 主 
要 涉及 的 是 数据 的 ETL( 采 集 、 转 换 、 加 载 ) 过 程 ,能 对 数据 进行 清洗 .过 滤 、 校 验 、 转 换 等 
各 种 预 处 理 , 将 有 效 的 数据 转换 成 适合 的 格式 和 类 型 。 同 时 ,为 了 支持 多 源 异 构 的 数据 采 
集 和 存储 访问 ,还 需 设 计 企 业 的 数据 总 线 ,方便 企业 各 个 应 用 和 服务 之 间 数 据 的 交换 和 
共享 。 

3) 数据 存储 技术 

数据 经 过 采集 和 转换 之 后 ,需要 存储 归档 。 针 对 海量 的 大 数据 ,一 般 可 以 采用 分 布 式 
文件 系统 和 分 布 式 数据 库 的 存储 方式 ,把 数据 分 布 到 多 个 存储 结 点 上 ,同时 还 需 提供 备 
份 . 安 全 ,访问 接口 及 协议 等 机 制 。 

4) 数据 计算 

我 们 把 与 数据 查询 ,统计 分析、 预测 挖掘、 图 谱 处 理 、BI 商业 智能 等 各 项 相关 的 技 
术 统 称 为 数据 计算 技术 。 数 据 计 算 技术 涵盖 数据 处 理 的 方方面面 ,也 是 大 数据 技术 的 
核心 。 

5) 数据 展现 与 交互 

数据 展现 与 交互 在 大 数据 技术 中 也 至 关 重 要 ,因为 数据 最 终 需 要 为 人 们 所 使 用 ,为 生 
产 、 运 营 ,规划 提供 决策 支持 。 选 择 恰当 的 、 生 动 直观 的 展示 方式 能 够 帮助 我 们 更 好 地 理 
解数 据 及 其 内 涵 和 关联 关系 ,也 能 够 更 有 效 地 解释 和 运用 数据 ,发 挥 其 价值 。 在 展现 方式 
上 ,除了 传统 的 报表 ,图 形 之 外 ,我 们 还 可 以 结合 现代 化 的 可 视 化 工具 及 人 机 交互 手段 ,其 
至 是 基于 最 新 的 如 Google 眼镜 等 增强 现实 手段 ,来 实现 数据 与 现实 的 无 缝 接口 。 

2. 三 大 技术 推动 大 数据 分 析 平 台 的 发 展 

在 互联 网 技术 横行 的 时 代 , 数 据 即 价值 ,数据 即 资 源 。 大 数据 分 析 工 具 的 职责 就 是 规 
整数 据 , 挖 掘 价值 。 因 此 ,大 数据 分 析 平 台 的 发 展 在 一 定 程度 上 代表 着 大 数据 的 发 展 。 而 
在 现 阶 段 , 云 存储 技术 、 感 知 技术 、 数 据 可 视 化 技术 成 为 大 数据 应 用 技术 中 不 可 或 缺 的 组 
成 部 分 。 

1) 云 存储 技术 

大 数据 可 以 抽象 地 分 为 大 数据 存储 和 大 数据 分 析 , 这 两 者 的 关系 是 : 大 数据 存储 的 
目的 是 支撑 大 数据 分 析 。 大 数据 存储 致力 于 研发 可 以 扩展 至 PB 甚至 EB 级 别 的 大 数据 
分 析 平 台 ; 大 数据 分 析 关注 在 最 短 的 时 间 内 处 理 大 量 不 同类 型 的 数据 集 。 

根据 著名 的 “摩尔 定律 ”,18 个 月 集成 电路 的 复杂 性 就 增加 一 倍 。 所 以 ,存储 器 的 成 
本 大 约 每 18 一 24 个 月 就 下 降 一 半 。 这 意味 着 云 存储 技术 的 潜力 巨大 ,同时 对 于 大 数据 分 
析 平 台 而 言 ,意味 着 更 大 的 数据 存储 量 和 功能 更 强 的 线 上 大 数据 分 析 平 台 。 

2) 数据 抓 取 技 术 

现在 大 多 数 的 大 数据 分 析 平 台 的 数据 抓 取 功 能 还 停留 在 对 固定 数据 库 的 数据 处 理 和 
整合 上 。 但 是 随 着 互联 网 技术 的 应 用 拓展 ,直接 从 互联 网 甚至 是 行为 个 体 上 直接 抓 取 数 
据 并 非 是 不 可 能 的 ,在 技术 上 也 是 可 行 的 。 

大 数据 的 采集 和 数据 抓 取 技术 的 发 展 是 紧密 联系 的 。 以 传感器 技术 ,指纹 识别 技术 、 
射频 识别 RFID 技术 、 坐 标定 位 技术 等 为 基础 的 感知 能 力 提升 同样 是 物 联网 发 展 的 基石 。 
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而 随 着 智能 手机 的 普及 ,感知 技术 迎 来 了 发 展 的 高 峰 期 。 大 数据 分 析 平 台 未 来 极 有 可 能 
整合 数据 抓 取 技 术 , 变 被 动 分 析 为 主动 寻找 ,从 而 攀 上 大 数据 分 析 技 术 发 展 的 新 高 峰 。 

3) 数据 可 视 化 技术 

数据 可 视 化 技术 是 当下 最 热门 的 大 数据 应 用 数据 ,除了 末端 展示 的 需要 ,数据 可 视 化 
也 是 数据 分 析 时 不 可 或 缺 的 一 部 分 , 即 返回 数据 时 的 二 次 分 析 。 而 数据 可 视 化 也 利于 大 
数据 分 析 平 台 的 学 习 功 能 建设 ,让 没有 技术 背景 和 初学 者 也 能 很 快 掌握 大 数据 分 析 平 台 
的 操作 。 

未 来 的 大 数据 分 析 平 台 的 承载 平台 也 不 可 能 固定 在 某 一 类 平台 ,但 是 无 论 哪 一 类 平 
台 , 数 据 分 析 和 分 析 结 果 的 末端 展示 都 离 不 开 数 据 可 视 化 技术 。 其 实 与 其 说 数据 可 视 化 
技术 是 大 数据 应 用 技术 发 展 的 需要 ,不 如 说 数据 可 视 化 技术 简化 了 数据 分 析 技 术 , 从 而 让 
更 多 人 可 以 走 近 大 数据 ,使 用 大 数据 。 

在 大 数据 应 用 技术 发 展 的 历程 中 ,还 有 许多 技术 伴随 左右 ,但 都 没有 以 上 这 三 大 技术 
重要 ,因为 它们 直接 勾勒 了 大 数据 分 析 平 台 的 未 来 甚至 是 人 类 的 未 来 。 

在 大 数据 概念 中 ,目前 还 没有 哪 项 单一 技术 能 够 满足 所 有 应 用 需求 。 这 些 大 数据 技 
术 或 针对 数字 营销 数据 进行 优化 ,或 分 析 社 交 网 络 数据 ,再 或 者 主要 用 已 知 数据 来 预防 未 
知 的 风险 ,其 应 用 领域 比较 具有 针对 性 。 

3. 大 数据 平台 的 三 个 重要 的 技术 部 分 

我 们 可 以 将 一 套 完整 的 大 数据 平台 拆 分 成 几 个 不 同 的 技术 领域 。 从 宏观 上 来 看 ,大 
数据 平台 包含 了 三 个 重要 的 技术 部 分 。 

1) 数据 交易 技术 

这 一 部 分 技术 所 从 事 的 工作 ,是 对 一 些 传统 的 关系 型 数据 或 者 非 结 构 化 数据 进行 处 
理 , 这 些 数 据 包括 ERP 应 用 ,数据 仓 库 应 用 、 在 线 交 易 处理 (OLTP) 等 。 

2) 数据 交互 技术 

数据 交互 是 第 二 类 组 成 部 分 , 它 也 是 成 长 最 迅速 的 一 类 大 数据 技术 。 数 据 交 互 技术 
主要 是 对 社交 网 络 , 物 联网 设备 和 传感器 .地 理 定位 .影像 文件 .互联 网 点 击 .电子 邮件 等 
应 用 产生 的 数据 进行 处 理 。 

3) 数据 处 理 技术 

最 后 是 对 数据 的 处 理 。 在 这 一 部 分 中 ,包含 了 技术 架构 .计算 方式 等 内 容 。 知 名 的 
Hadoop 平台 就 是 其 中 的 一 分 子 。 

另 一 方面 ,从 微观 层面 ,我 们 可 以 对 大 数据 平台 再 进行 更 加 细致 的 剖析 。 

(1) 数据 存储 。 

数据 存储 是 大 数据 平台 的 根本 ,也 是 所 有 大 数据 技术 中 产品 种 类 最 多 的 一 个 组 成 部 
分 。 没 有 了 存储 平台 ,数据 也 就 没有 了 载体 。 在 数据 存储 的 组 成 中 ,包括 了 高 性 能 的 内 核 
式 分 布 存储 系统 ,用 户 级 的 分 布 式 存储 以 及 业务 级 别 的 数据 存储 。 这 其 中 不 乏 Hadoop 
HDFS 这 样 的 知名 产品 。 

(2) 数据 同步 。 

这 一 部 分 技术 主要 用 于 将 基础 架构 产生 的 数据 内 容 进行 转换 ,以 完成 数据 处 理 、 系 统 


的 


监控 等 方面 的 操作 。 

(3) 数据 开发 。 

顾名思义 ,数据 开发 技术 主要 承担 了 搭建 大 数据 平台 上 层 建 筑 的 任务 。 其 中 涵盖 了 
用 户 认证 ,数据 鉴 权 、 工 作 流 、 数 据 管理 等 多 方面 的 任务 。Facebook 为 了 更 好 地 应 用 大 数 
据 技术 ,特别 开发 了 名 为 Facebook Insights 的 产品 ,将 大 数据 平台 中 的 单元 和 属性 抽 离 
出 来 ,以 更 好 地 掌控 数据 资源 。 

(4) 数据 计算 。 

这 一 部 分 毫 无 疑问 是 一 个 大 数据 平台 最 为 重要 的 技术 核心 。 其 承担 了 对 海量 数据 进 
行 再 加 工 、 再 处 理 的 任务 。 一 般 来 说 ,可 以 将 其 分 为 离线 计算 与 实时 计算 两 种 模式 。 

离线 计算 一 般 适 用 于 对 时 间 属 性 不 敏感 的 应 用 ,相对 而 言 ,其 技术 开发 和 构建 的 成 本 
较 低 。 但 是 由 于 离线 计算 需要 数据 同步 技术 对 数据 进行 采集 ,过 大 的 数据 量 会 使 得 采集 
过 程 失败 ,因此 目前 用 于 离线 计算 的 数据 量 还 不 能 太 大 。 

相 较 于 离线 计算 ,实时 计算 处 理 速度 更 快 ,但 是 其 成 本 很 高 。 目 前 实时 计算 大 都 用 于 
金融 .互联 网 等 行业 。 

(5) 数据 挖掘 。 

数据 挖掘 并 不 是 一 个 新 的 技术 ,目前 其 发 展 已 经 非常 成 熟 。 在 大 数据 的 概念 下 ,数据 
挖掘 被 赋予 了 新 的 意义 。 其 所 处 理 的 数据 类 别 越 来 越 广 泛 , 同 时 为 了 迎接 海量 数据 ,数据 
挖掘 工具 的 性 能 也 在 不 断 提升 。 

在 当今 这 个 飞速 发 展 的 数字 时 代 , 大 数据 已 经 成 为 我 们 生活 中 必 不 可 少 的 一 部 分 。 
展望 未 来 ,围绕 大 数据 还 将 有 一 些 新 的 技术 和 商业 模式 诞生 。 数 据 将 成 为 如 同 服装 、 汽 
车 ,家 电 或 者 是 食物 一 样 的 商品 ,成 为 人 们 选 购 的 对 象 。 同 时 ,精通 大 数据 相关 技术 的 数 
据 科学 家 ,也 会 成 为 一 个 新 兴 的 职业 类 型 ,在 新 时 代 中 扮演 重要 的 角色 。 

4.、 云 平台 与 云 存储 

大 数据 的 强大 后 台 是 云 计 算 。 简 单 地 说 , 云 计 算 包 括 三 个 部 分 : 基础 设施 服务 
(JInfrastructure-as-a-Service,IaaS) .平台 服务 (Platform-as-a-Service, PaaS) 和 软件 服务 
(Software-as-a-Service, SaaS) 。 

1) 基础 设施 服务 (IaaS) 

基础 设施 服务 是 最 基础 的 , 它 是 云 的 一 个 服务 端 ,用 户 可 以 通过 互联 网 从 计算 机 基础 
设施 获得 服务 。IaaS 的 大 多 数 用 户 是 科技 公司 ,他们 通常 有 很 强 的 IT 专长 , 想 要 利用 计 
算 机 强大 的 计算 功能 ,但 是 又 不 想 负责 安装 和 维护 。 

2) 平台 服务 (PaaS) 

这 是 一 个 以 云 计算 为 基础 的 软件 研发 平台 服务 ,公司 可 以 利用 这 个 平台 在 已 有 软件 
的 基础 上 进一步 发 展 或 研发 软件 。PaaS 环境 能 够 和 一 些 软件 开发 工具 结合 ,例如 Java、 
. NET Python 等 ,更 方便 用 户 进行 编码 以 及 在 网 络 上 共享 其 程序 编码 。 目 前 PaaS 在 云 
计算 的 市 场 份额 是 三 个 部 分 中 最 小 的 ,主要 被 一 些 公司 用 来 外 包 其 基础 设施 。 

3) 软件 服务 (SaaS) 

是 目前 云 计算 中 利用 最 多 并 且 发 展 最 成 熟 的 一 部 分 , 它 利用 互联 网 提供 软件 服务 ,而 
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不 需要 被 下 载 到 用 户 端 或 者 存储 在 一 个 数据 中 心 。 很 多 数据 处 理 和 文本 处 理 软件 ,例如 
Word 等 ,开始 逐渐 转向 一 些 云 计算 的 软件 服务 , 比如 Google Apps、Microsoft Office 
365 等 。 


云 计算 的 三 个 部 分 如 图 1.5 所 示 。 


SaaS 分 布 式 数据 挖掘 如 : Mahout 
分 布 式 处 理 如 : MapReduce、 JobKeeper 
es 分 布 式 数据 库 如 : HBase、 数据 立方 


laaS 云 存 储 虚拟 化 











如 : IIDFS、cStor 如 : VMware、 OpenStack 
1.5 云 计 算 的 三 个 部 分 


云 计算 的 三 个 部 分 有 一 些 共 同 的 特点 。 首 先 ,用 户 不 需要 购买 任何 空间 ,而 是 采用 租 
借 的 形式 利用 云端 存储 空间 。 第 二 , 云 计 算 服 务 提供 商 负 责 所 有 的 维护 ,管理 ,空间 计划 、 
问题 处 理 和 后 备 存储 等 。 最 后 , 相 比 传统 方法 , 云 计算 服务 更 方便 、 更 快捷 ,TaaS 有 更 多 
的 存储 空间 ,PaaS 可 以 处 理 更 多 的 平台 服务 ,SaaS 可 以 被 更 多 用 户 利用 。 


1.5 大 数据 的 社会 价值 


1.5.1 大 数据 的 社会 价值 体现 

大 数据 技术 的 出 现实 现 了 巨大 的 社会 价值 ,主要 表现 在 如 下 几 个 方面 。 

1. 能 够 推动 实现 巨大 经 济 效益 

大 数据 技术 的 出 现 能 够 推动 社会 实现 巨大 经 济 效益 ,比如 对 中 国 零售 业 净利 润 增长 
的 贡献 ,降低 制造 业 产品 开发 组装 成 本 等 。 在 2013 年 全 球 大 数据 直接 和 间接 拉动 信息 
技术 支出 达 1200 亿美 元 。 

2. 能 够 推动 增强 社会 管理 水 平 

大 数据 在 公共 服务 领域 的 应 用 ,可 有 效 推动 相关 工作 开展 ,提高 相关 部 门 的 决策 水 
平 . 服 务 效率 和 社会 管理 水 平 ,产生 巨大 的 社会 价值 。 欧 洲 多 个 城市 通过 分 析 实 时 采集 的 
交通 流量 数据 ,指导 驾车 出 行者 选择 最 佳 路 径 , 从 而 改善 城市 交通 状况 。 

3. 如 果 没 有 高 性 能 的 分 析 工 具 , 大 数据 的 价值 就 得 不 到 释放 

对 大 数据 应 用 必须 保持 清醒 认识 , 既 不 能 迷信 其 分 析 结 果 ,也 不 能 因为 其 不 完全 准确 
而 否定 其 重要 作用 。 

(1) 由 于 各 种 原因 ,所 分 析 处 理 的 数据 对 象 中 不 可 避免 地 会 包括 各 种 错误 数据 .无 用 
数据 ,加 之 作为 大 数据 技术 核心 的 数据 分 析 、 人 工 智能 等 技术 尚未 完全 成 熟 , 所 以 对 计算 
机 完成 的 大 数据 分 析 处 理 的 结果 ,无 法 要 求 其 完全 准确 。 例 如 ,Google 通过 分 析 亿 万 用 





下 


户 搜 索 内容 能 够 比 专业 机 构 更 快 地 预测 流感 暴发 ,但 由 于 微 博 上 无 用 信息 的 干扰 ,这 种 预 
测 也 曾 多 次 出 现 不 准确 的 情况 。 

(2) 必须 清楚 定位 的 是 ,大 数据 作用 与 价值 的 重点 在 于 能 够 引导 和 启发 大 数据 应 用 
者 的 创新 思维 ,辅助 决策 。 简 单 而 言 ,若是 处 理 一 个 问题 ,通常 人 能 够 想到 一 种 方法 ,而 大 
数据 能 够 提供 十 种 参考 方法 ,哪怕 其 中 只 有 三 种 可 行 , 也 将 解决 问题 的 思路 拓展 了 三 倍 。 

所 以 ,客观 认识 和 发 挥 大 数据 的 作用 ,不 夸大 ,不 缩小 ,是 准确 认 知 和 应 用 大 数据 的 
前 提 。 
1.5.2 大 数据 在 政府 管理 方面 的 应 用 

政府 数据 资源 丰富 ,应 用 需求 旺盛 ,政府 既是 大 数据 发 展 的 推动 者 ,也 是 大 数据 应 用 
的 受益 者 。 这 一 年 ,政府 应 用 大 数据 更 好 地 响应 社会 和 经 济 指标 变化 ,解决 城市 管理 , 安 
全 管控 ,行政 监管 中 的 实际 问题 ,预测 判断 事态 走势 等 。 对 政府 管理 而 言 ,大 数据 的 价值 
在 于 提高 决策 科学 化 与 管理 精细 化 的 水 平 。 表 1. 2 为 部 分 政府 管理 领域 大 数据 应 用 
案例 。 

表 1.2 政府 管理 领域 大 数据 应 用 案例 


背景 内 容 


数据 来 源 


作用 效果 





公安 打击 网 络 
售 假 


淘宝 联手 上 海 .福建 .浙江 、 
湖南 等 地 公安 机 关 , 运 用 大 
数据 查获 网 售 假冒 运动 鞋 案 
件 ,涉案 总 价值 2150 余万元 


淘宝 数据 和 公安 数据 


各 地 警方 共 破案 5 起 ,捣毁 犯 
罪 团伙 1 个 ,捣毁 销 售 、 仓 储 窝 
点 7 处 ,现场 缴获 各 类 假冒 “ 耐 
克 ” 运 动 鞋 300 余 双 





缓解 停车 问题 


SpotHero 是 一 个 手机 应 用 ， 
能 够 根据 用 户 的 位 置 和 目的 
地 及 路 况 , 实 时 跟踪 停车 位 
数量 变化 


入 网 城市 的 可 用 车 库 
或 停车 位 ,以 及 相对 
应 的 价格 ,时 间 、 区 间 
数据 


能 够 实时 监控 华盛顿 .纽约 、 芝 
加 哥 、 巴 尔 的 摩 \ 波 士 顿 、 密 尔 
沃 基 和 纽 瓦 克 七 个 城市 的 停 
车 位 





证 监 会 调查 内 
幕 交易 


已 调查 内 幕 交 易 线索 375 
起 ,立案 142 起 ,分 别 比 以 往 
同期 增长 了 21% 、33% 


交易 数据 ,企业 信息 
和 历史 内 幕 交 易 数 
据 等 


已 将 涉嫌 利用 “ 银 润 投 资 "“ 圆 
城 黄 金 ”“ 爱 施 德 “* 焦 作 万 方 ” 
等 43 家 上 市 公司 的 内 幕 信 息 ， 
从 事 非 法 交易 的 125 名 个 人 和 
3 家 机 构 移交 公安 机 关 





税务 数据 分 析 
应 用 


增强 对 税务 风险 的 监管 和 控 
制 ;对 即将 出 现 的 风险 点 进 
行 提示 


登记 .申报 、 缴 款 、 集 
中 度 状况 、 增 值 税 全 
部 销售 收入 等 数据 


实现 了 对 45 家 定点 联系 企业 ， 
近 5 万 户 分 支 机 构 实施 税源 监 
控 、 纳 税 评估 








山西 省 农业 厅 





建设 山西 省 “畜牧 兽医 大 数 
据 系 统 平台 ”和 “山西 省 省 级 
畜牧 兽医 大 数据 中 心 ” 


数据 来 源 : 赛 迪 智库 整理 ,2015. 3 

通过 案例 可 见 ,政府 部 门 一 方面 掌握 了 大 量 的 基础 数据 资源 ; 男 一 方面 ,在 城市 管理 、 

安全 管控 ,行政 监管 等 领域 的 应 用 需求 旺盛 。 大 数据 带 来 的 是 从 政务 信息 公开 ,到 数据 整 
合共 享 , 它 超越 了 传统 行政 思维 模式 ,推动 政府 从 * 经 验 治理 ?转向 “科学 治理 ”。 





农业 厅 数 据 、 天 气 数 
据 \ 畜 牧 兽医 机 构 数 
据 等 





利用 大 数据 增强 全 省 重大 动物 
疫病 防 控 能 力 和 畜产 品质 量 安 
全 监管 能 力 


1.5.3 大 数据 在 公共 服务 领域 的 应 用 


大 数据 在 公共 服务 中 的 交通 、 医 疗 教育 、 预 测 服务 等 领域 得 到 广泛 应 用 。 随 着 第 三 
方 服务 机 构 的 参与 ,公众 需求 被 不 断 挖掘 ,应 用 场景 逐步 丰富 。 表 1. 3 为 部 分 公共 服务 领 
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域 大 数据 应 用 的 案例 。 
表 1.3 公共 服务 领域 大 数据 应 用 案例 
背景 内 容 数据 来 源 作用 效果 
英国 每 年 有 高 达 77 亿 英 镑 | 对 收集 到 的 信息 进行 糖 
用 于 处 理 糖尿 病 并 发 症 。 通 | 通过 移动 终端 收集 患者 的 生 | 尿 病 风险 等 级 评估 , 根 
英国 NHS 糖 活 起 居 数 据 ,生理 变化 数据 、| 尿 站 
采 届 从 和 | 过 数据 分 析 干预, 大 量 的 粮 | 汪 关 和 3 和 全 到 吉他 近 训 | 据 评估 情况 为 每 个 十 者 
尿 病 所 六 来 的 并 改定 是 可 以 | 用 数据 饮食 数 4 制定 适宜 的 个 性 化 的 粮 
避免 的 尿 病 干预 治疗 方案 
减肥 , 银 炼 , 睡 睛 ,戒烟 等 患 | 根据 患者 信息 ,为 其 提 
很 多 人 已 经 开始 选择 使 用 移 | 者 上 传 的 个 人 习惯 数据 和 健 | 供 医生 推荐 药物 推荐 
医 疗 ， 平 | 动 智 能 终端 进行 医疗 咨询 ， 
后 ha | 瑞生 尼康 后 站 和 秘 了 | 康 情况 及 病史 ;症状 ,病情 ,| 等 服务 。 破 少 用 户 就 认 
药物 .检测 诊疗 数据 ;就 诊 时 | 时 间 , 提 高 医生 和 患者 
短信 视频 数据 等 的 匹配 度 
新 东方 和 腾讯 宣布 成 立 合资 | 用 户 在 优 答 上 的 学 习 行为 ,| 目前 智能 拍照 扫 题 准确 
智能 学 习 应 用 | 新 东方 和 腾讯 宜 分 析 用 户 的 学 习 效率 、 知 识 有 由 
智能 学 公司 "“ 微 学 明日 "。 开 发 智能 率 达 到 80% 以 上 ,响应 
优 答 学 习 应 用 APP“ 优 答 ” 掌握 薄弱 的 环节 等 ,积累 了 | 速度 在 10 秒 以 内 
每 个 用 户 的 英语 学 习 数 据 
“行为 评价 和 诱导 "的 智能 学 总 结 群 体 的 行为 数据 咀 
习 平 台 可 以 实现 全 球 几 十 万 现 出 的 规律 ,从 而 对 学 
智能 学 习 平台 | 人 同步 学 习 ,共享 全 球 优质 | 大 量 单个 个 体 学 习 行为 数据 | 习 者 的 学 习 行为 进行 自 
教育 资源 动 的 提示 ,诱导 和 评价 
高 考 作 文成 为 社会 关注 的 焦 | 大 量 作文 范文 ,海量 的 作文 | 成 功 押 中 全 国 18 套 作 
百度 高 考 作文 | 点 ,高 考 作文 题目 预测 是 老 | 相关 搜索 数据 ,年 度 风云 搜 | 文 考题 中 的 12 套 ,成 功 
押 题 点 ， 索 信息 、 新 闻 数据 .社会 执 
师 和 考生 的 急切 需求 率 达 到 66.7% 

对 有 包括 柜员 系统 、 实 物 黄金 、| 降低 运营 成 本 ,控制 风 
ei ft 阿拉 丁 " 大 数据 | ATM ,手机 银行 等 100 多 个 | 险 , 提 高 产品 精准 营销 
业务 系统 源 数据 能 力 

结合 实时 、 历 史 数据 进行 全 
遇 信 银行 信 | 局 分 析 , 风 险 管理 部 门 每 天 | 用 户 信用 数据 ,支付 数据 ` 消 0 
让 信和 银 行 信 | 评 全 客户 的 行为 ,并 决定 对 | 和 行为 数据 .还 吉 数 据 .用 户 | 四 "更 有 外 对 的 进行 党 

客户 的 信用 额度 在 同一 天 进 | 画像 及 历史 数据 等 ; 

的 时 间 

行 调 整 

面 对 中 小 企业 和 个 人 贷款 难 通过 掌握 的 企业 交易 数 
阿 明 信 借 | 问题 ,以 及 商业 银行 风险 管 | 交 光 吕 ) 从 后 攻 囊 ，| 据 , 供 助 大 数据 技术 自 

控 需 求 ,阿里 开发 了 信用 评 | 六 各 雪 方 区 下 具 ,性 草地 | 动 分 析 判 定 是 否 给 对 企 
估 大 数据 应 用 业 贷款 
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背景 内 容 


数据 来 源 


续 表 
作用 效果 





基于 受众 跨 屏 
的 RTB 广 告 


原 有 互联 网 模式 存在 难以 跨 
屏 、Cookie 生命 周期 短 、 受 
众 行为 信息 缺失 等 问题 


电信 运营 商 对 “管道 ”中 的 数 
据 进 行 解析 , 整合 用 户 的 
Cookie、IMEI、 计 费 代 码 等 
数据 


电信 运营 商 自身 业务 的 
精确 营销 正在 从 “被 动 ” 
变 为 “主动 ”模式 ,在 降 
低 成 本 的 同时 精准 完成 
了 业务 推送 





Climate 


Corporation 


意外 天 气 保险 


天 气 对 农业 生产 的 影响 较 
大 , 面 对 天 气 和 气候 变化 而 
产生 的 个 性 化 农业 保险 需求 
日 益 强 列 


250 万 个 地 点 的 气候 测量 数 
据 和 大 型 气候 模型 的 每 日 预 
测 , 结 合 1500 亿 例 土壤 观察 
数据 ,生成 10 万 亿 个 模拟 气 
候 数 据点 


预测 未 来 可 能 对 农业 生 
产 造成 破坏 的 各 种 天 
气 , 农 民 可 以 根据 这 种 
预测 来 选择 相应 的 农业 
保险 





旅游 预测 


百度 推出 旅游 预测 产品 , 提 
供 景区 客流 量 预测 、 游 客人 
口 属性 分 析 、 游 客 兴趣 挖掘、 
与 情 分 析 等 服务 


依托 百度 海量 的 用 户 搜索 行 
为 数据 、 微 博 数 据 , 位 置 数据 
等 多 维度 旅游 行业 相关 数据 


百度 已 经 与 九寨 沟 、 四 
川 旅游 局 、 山 东 旅 游 局 
已 达成 合作 意向 





油价 预测 


Esurance 推出 一 款 名 为 
Fuelcaster 的 App, 专 门 帮助 
车 主 们 预测 近期 油价 


从 全 国 各 地 加 油 站 收集 的 数 
据 计 算 而 成 ,车 主 只 需 输 入 
区 号 ,就 可 获得 所 在 区 域 的 
油价 预测 


帮助 车 主 预 测 近期 油 
价 , 提 供 购买 建议 ;显示 
周边 10 个 加 油 站 的 油 
价 对 比 











数据 来 源 : 赛 迪 智库 整理 ,2015. 3 


通过 案例 可 知 , 政 府 或 第 三 方 机 构 可 以 通过 对 交通 、 医 疗 .教育 .天 气 等 领域 的 大 数据 
实时 分 析 , 提 高 对 危机 事件 和 未 来 趋势 的 预 判 能 力 ,为 实现 更 好 、 更 科学 的 危机 响应 和 事 
前 决策 提供 了 技术 基础 。 


1.6 大 数据 的 商业 应 用 


1.6.1 商业 大 数据 的 类 型 和 价值 挖掘 方法 

1， 商 业 大 数据 的 类 型 

商业 大 数据 的 类 型 大 致 可 分 为 三 类 : 

(1) 传统 企业 数据 (Traditionalenterprisedata) 。 

传统 企业 数据 包括 CRM systems 的 消费 者 数据 ,传统 的 ERP 数据 ,库存 数据 以 及 账 
目 数 据 等 。 

(2) 机 器 和 传感器 数据 (Machine-generated/sensor data) 。 

机 器 和 传感器 数据 包括 呼叫 记录 (CallDetail Records) ,智能 仪表 .工业 设备 传感器 、 
物 联 网 传 感 设 备 .设备 日 志 ( 通 常 是 Digital exhaust) ,交易 数据 等 。 

(3) 社交 数据 (Socialdata) 。 

社交 数据 包括 用 户 行为 记录 ,反馈 数据 等 ,如 推 特 (Twitter) 、 脸 书 (Facebook) 这 样 的 
社交 媒体 平台 。 


第 1 章 大 数据 技术 基本 概念 


2. 大 数据 挖掘 商业 价值 的 方法 


大 数据 挖掘 商业 价值 的 方法 主要 分 为 四 种 : 

(1) 客户 群体 细 分 ,为 每 个 群体 量 定制 特别 的 服务 。 

(2) 模拟 现实 环境 ,发 掘 新 的 需求 同时 提高 投资 的 回报 率 。 

(3) 加 强 部 门 联系 ,提高 整 条 管理 链条 和 产业 链条 的 效率 。 

(4) 降低 服务 成 本 ,发 现 隐 藏 线索 进行 产品 和 服务 的 创新 。 

3. 传统 商业 智能 技术 与 大 数据 应 用 的 比较 

随 着 新 型 商业 智能 的 产生 ,传统 针对 海量 数据 的 存储 处 理 , 通 过 建立 数据 中 心 ,建设 
包括 大 型 数据 仓库 及 其 支撑 运行 的 软 硬 件 系 统 ,设备 (包括 服务 器 、 存 储 、 网 络 设备 等 ) 越 
来 越 高 档 , 数 据 仓 库 .OLAP 及 ETL .BI 等 平台 越 来 越 庞大 ,但 这 些 需要 的 投资 越 来 越 大 ， 
而 面 对 数据 的 增长 速度 , 越 来 越 力 不 从 心 ,所 以 基于 传统 技术 的 数据 中 心 建设 .运营 和 推 
广 难度 越 来 越 大 。 

另外 一 般 能 够 使 用 传统 的 数据 库 .数据 仓库 和 BI 工具 能 够 完成 的 处 理 和 分 析 挖 掘 的 
数据 ,还 不 能 称 为 大 数据 ,这 些 技术 也 不 能 叫 大 数据 处 理 技 术 。 面 对 大 数据 环境 ,包括 数 
据 挖 掘 在 内 的 商业 智能 技术 正在 发 生 巨大 的 变化 。 

传统 的 传统 商业 智能 技术 ,包括 数据 挖掘 ,主要 任务 是 建立 比较 复杂 的 数据 仓库 模 
型 .数据 挖掘 模型 ,来 分 析 和 处 理 不 太 多 的 数据 。 

由 于 云 计算 模式 、 分 布 式 技 术 和 云 数据 库 技 术 的 应 用 ,我 们 不 需要 这 么 复杂 的 模型 ， 
不 用 考虑 复杂 的 计算 算法 ,就 能 够 处 理 大 数据 ,对 于 不 断 增长 的 业务 数据 ,用 户 也 可 以 通 
过 添加 低 成 本 服务 器 甚至 是 PC 也 可 以 ,来 处 理 海 量 数据 记录 的 扫描 ,统计 ,分析 、 预 测 。 
如 果 商 业 模式 变化 了 ,需要 一 分 为 二 ,那么 新 商业 智能 系统 也 可 以 很 快 地 、 相 应 地 一 分 为 
二 ,继续 强力 支撑 商业 智能 的 需求 。 

所 以 实际 是 对 传统 商业 智能 的 发 展 和 促进 ,商业 智能 将 出 现 新 的 发 展 机 遇 , 面 对 风云 
变幻 的 市 场 环境 ,快速 建 模 , 快 速 部 署 是 新 商业 智能 平台 的 强力 支撑 。 而 不 像 过 去 那样 艰 
难 前 行 , 难 以 承受 商业 运作 的 变化 。 大 数据 蕴含 的 商机 如 图 1. 6 所 示 。 


| 大 数据 莉 含 的 商机 
NetAppr 





金融 服务 业 政府 机 构 

坎 诈 公测 和 预防 法 律 实施 
反 洗 钱 反 玖 
风险 管理 
医疗 保健 业 

供应 链 优化 3 

缺陷 跟踪 药物 开发 
病历 

循 证 医学 





1.6 大 数据 蕴含 的 商机 


本 


1.6.2 全 球 大 数据 市 场 结 构 


全 球 大 数据 市 场 结构 从 垄断 竞争 向 完全 竞争 格局 演化 。 企 业 数 量 迅速 增多 ,产品 和 
服务 的 差异 度 增 大 ,技术 门槛 逐步 降低 ,市 场 竞争 越发 激烈 。 

全 球 大 数据 市 场 中 ,行业 解决 方案 、 计 算 分 析 服 务 、 存 储 服务 、 数 据 库 服 务 和 大 数据 应 
用 为 市 场 份 额 排 名 最 靠 前 的 细 分 市 场 ,分 别 占 据 35. 4%、17.3%、14.7%、12.5% 和 7.9% 
的 市 场 份额 。 云 服务 的 市 场 份额 为 6.3% ,基础 软件 占据 3.8% 的 市 场 份 额 ,网 络 服 务 仅 
占据 了 2% 的 市 场 份额 。2011 一 2017 年 全 球 大 数据 细 分 领域 市 场 规模 及 预测 (单位 : 亿 
美元 ) 见 表 1. 4。 


表 1.4 2011 一 2017 年 全 球 大 数据 细 分 领域 市 场 规模 及 预测 (单位 : 亿美 元 ) 





























细 分 领域 2011 年 | 2012 年 | 2013 年 | 2014 年 | 2015 年 | 2016 年 | 2017 年 
云 3.6 6.2 11.9 18.2 35 30.5 36.5 
行业 解决 方案 28 44.2 61.5 101 135 160 172 
应 用 5.2 9.9 16.9 34.5 52.9 66.5 77.5 
非 关系 型 数据 库 Cy TS 2 5 8 10 12 
关系 型 数据 库 6.2 8.8 19;1 i175 到 :5 24.5 27 
基础 软件 可， 4.4 8.3 10.8 12:6 16 19 
网 络 6 2:8 4.2 5 8.5 10.1 11:6 
存储 11 17.5 30.9 42 55 64 69.5 
计算 15.3 22.9 36.5 49.2 64 71 76 























数据 来 源 ， Wikibon 公司 数据 ,2014.5 


全 球 大 数据 发 展 呈 现 两 极 分 化 的 态势 。 欧 美 等 发 达 国 家 拥有 先 发 优 势 ,处 于 产业 发 
展 领导 地 位 中国、 日本、 韩国 、 澳 大 利 亚 、 新 加 坡 等 国家 分 别 发 挥 各 自在 数据 资源 .行业 应 
用 、 技 术 积 累 ,政策 扶持 等 方面 的 优势 , 紧 紧 跟 随 ,并 在 个 别 领域 处 于 领先 。 其 他 多 数 国家 
的 大 数据 发 展 相对 缓慢 ,还 停留 在 概念 炒作 和 基础 设施 建设 阶段 。 在 开源 技术 的 支撑 下 ， 
技术 已 不 是 大 数据 发 展 的 最 大 障碍 ,信息 化 基础 和 数据 资源 成 为 一 个 国家 和 地 区 大 数据 
发 展 的 关键 要 素 。 


1.6.3 中国 大 数据 市 场 


我 国 大 数据 市 场 的 供给 结构 初步 形成 ,并 与 全 球 市 场 相似 ,呈现 三 角形 结构 , 即 以 百 
度 、 阿 里 、 腾 讯 为 代表 的 互联 网 企业 ,以 华为 联想、 浪潮 .曙光 、 用 友 等 为 代表 的 传统 IT 
厂商 ,以 亿 赞 普 , 拓 尔 思 ,海量 数据 、 九 次 方 等 为 代表 的 大 数据 企业 。 我 国 大 数据 市 场 的 供 
给 结构 如 图 1.7 所 示 。 

国内 外 大 数据 产业 链 重要 企业 列表 如 表 1.5 所 示 。 


传统 IT 厂商 
(华为 、 浪 潮 、 用 友 、 
联想 、 曙 光 ) 


互联 网 企业 
(百度 、 阿 里 、 腾 讯 ) 


A 
* 
证 4 
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企业 
折 尔 思 、 


数据 来 源 : 赛 迪 智 库 ，2015.3 
图 1.7 我 国 大 数据 市 场 供给 结构 图 


表 1.5 大 数据 产业 链 重要 企业 名 录 




















产业 环节 国外 代表 企业 国内 代表 企业 

IBM、 微 软 、MapR、Zettaset、Cloudera、 2 
大 数据 处 理 平台 HStreaming. Hadapt ,DataStax, Datameer 百度 \ 阿 里、 腾讯 

DataSift、 Gnip、 Knoema、 Infochimps、 
数据 获取 SpaceCurve, Windows Azure Marketplace 华 胜 天 成 .用友 软件 

10gen、 DataStax、 CouchBase、 Neo4j、 i 

有, 3 忆 便 创 源 \ 永 洪 科 技 、 百 度 、 华 胜 天 

数据 存储 Cloudant、Marklogic、HP Vertica、IBM、 成 . 拓 和 尔 思 , 东 方 国信 、 博 彦 科技 

Netezza Teradata 

Palantir, Platfora, Pervasive, Datameer 、 天 地 超 云 ,联想 , 永 洪 科 技 、 东 方 国 
数据 处 理 和 分 析 MetaMarkets 信 、 百 度 、 天 源 迪 科 , 亿 赞 普 
数据 应 用 Rocketfuel、Tapad 、Yieldbot、Chartbeat、 Lattice | 百度 、 阿 里、 腾讯 .云端 时 代 、 华 胜 天 

engines, 谷 歌 ,亚马逊 ,Ravel,23andMe 成 . 灵 玖 软件 ,天 云 融 创 \ 品 友 互动 

数据 安全 DataGuise \Stormpath Imperva, Dataguise 蓝 盾 、 启 明星 辰 . 奇 虎 








1.6.4 大 数据 给 中 国 带 来 的 十 大 商业 应 用 场景 


在 未 来 的 几 十 年 里 ,大 数据 都 将 会 是 一 个 重要 的 话题 。 大 数据 影响 着 每 一 个 人 ,并 在 
可 以 预见 的 未 来 继续 影响 着 。 大 数据 冲击 着 许多 主要 行业 ,包括 零售 业 、 金 融 行业 、 医 疗 
行业 等 ,大 数据 也 将 彻底 地 改变 我 们 的 生活 。 下 面 就 来 看 看 大 数据 给 中 国 带 来 的 十 大 商 
业 应 用 场景 ,未 来 大 数据 产业 将 会 是 一 个 万 亿 市 场 。 

1. 智慧 城市 

如 今 ,世界 超过 一 半 的 人 口 生活 在 城市 里 ,到 2050 年 这 一 数字 会 增长 到 75%。 政 府 
需要 利用 一 些 技术 手段 来 管理 好 城市 ,使 城市 里 的 资源 得 到 良好 配置 。 既 不 出 现 由 于 资 
源 配置 不 平衡 而 导致 的 效率 低下 ,又 要 避免 不 必要 的 资源 浪费 而 导致 的 财政 支出 过 大 。 
大 数据 作为 其 中 的 一 项 技术 可 以 有 效 帮 助 政府 实现 资源 科学 配置 ,精细 化 运营 城市 ,打造 


智慧 城市 。 


人 


城市 的 道路 交通 ,完全 可 以 利用 GPS 数据 和 摄像 头 数 据 来 进行 规划 ,包括 道路 红 绿 
灯 时 间 间 隔 和 关联 控制 ,包括 直行 和 左右 转弯 车 道 的 规划 .单行 道 的 设置 。 利 用 大 数据 技 
术 实 施 的 城市 交通 智能 规划 ,至 少 能 够 提高 30% 左 右 的 道路 运输 能 力 , 并 能 够 降低 交通 
事故 率 。 在 美国 ,政府 依据 某 一 路 段 的 交通 事故 信息 来 增设 信号 灯 , 降 低 了 50% 以 上 的 
交通 事故 率 。 机 场 的 航班 起 降 依 靠 大 数据 将 会 提高 航班 管理 的 效率 ,航空 公司 利用 大 数 
据 可 以 提高 上 座 率 ,降低 运行 成 本 。 铁 路 利用 大 数据 可 以 有 效 安排 客运 和 货运 列车 ,提高 
效率 、 降 低 成 本 。 

城市 公共 交通 规划 、 教 育 资源 配置 .医疗 资源 配置 .商业 中 心 建设 .房地产 规划 、 产 业 
规划 ,城市 建设 等 都 可 以 借助 于 大 数据 技术 进行 良好 规划 和 动态 调整 。 

大 数据 技术 可 以 了 解 经 济 发 展 情况 ,各 产业 发 展 情况 ,消费 支出 和 产品 销售 情况 , 依 
据 分 析 结 果 , 科 学 地 制定 宏观 政策 ,平衡 各 产业 发 展 ,避免 产能 过 剩 , 有 效 利用 自然 资源 和 
社会 资源 ,提高 社会 生产 效率 。 大 数据 技术 也 能 帮助 政府 进行 支出 管理 ,透明 合理 的 财政 
支出 将 有 利于 提高 公信 力 和 监督 财政 支出 。 大 数据 及 大 数据 技术 带 给 政府 的 不 仅仅 是 效 
率 提升 .科学 决策 ,精细 管理 ,更 重要 的 是 数据 治国 、 科 学 管理 的 意识 改变 ,未 来 大 数据 将 
会 从 各 个 方面 来 帮助 政府 实施 高 效 和 精细 化 管理 ,具有 极 大 的 想象 空间 。 

2. 金融 行业 


大 数据 在 金融 行业 应 用 范围 较 广 ,典型 的 案例 有 花旗 银行 利用 IBM 电脑 为 财富 管理 
客户 推荐 产品 ,美国 银行 利用 客户 点 击 数据 集 为 客户 提供 特色 服务 。 中 国 金融 行业 大 数 
据 应 用 开展 的 较 早 ,但 都 是 以 解决 大 数据 效率 问题 为 主 ,很 多 金融 行业 建立 了 大 数据 平 
台 , 对 金融 行业 的 交易 数据 进行 采集 和 处 理 。 

金融 行业 过 去 的 大 数据 应 用 以 分 析 自 身 财务 数据 为 主 ,以 提供 动态 财务 报表 为 主 ,以 
风险 管理 为 主 。 在 大 数据 价值 变现 方面 ,开展 得 不 够 深入 ,这 同 金 融 行业 每 年 上 万 亿 的 净 
利润 相 比 是 不 匹配 的 。 现 在 已 经 有 一 些 银行 和 证 券 开 始 和 移动 互联 网 公司 合作 ,一 起 进 
行 大 数据 价值 变现 ,其 中 招商 银行 .平安 集团 .兴业 银行 .国信 证 券 ,海通 证 券 在 移动 大 数 
据 精准 营销 、 获 客 .用户 体验 等 方面 进行 了 不 少 的 尝试 ,大 数据 价值 变现 效果 还 不 错 , 大 数 
据 正在 帮助 金融 行业 进行 价值 变现 。 大 数据 在 金融 行业 的 应 用 可 以 总 结 为 以 下 五 个 
方面 。 

(1) 精准 营销 : 依据 客户 消费 习惯 .地 理 位 置 .消费 时 间 进 行 推荐 。 

(2) 风险 管控 : 依据 客户 消费 和 现金 流 提供 信用 评级 或 融资 支持 ,利用 客户 社交 行 
为 记录 实施 信用 卡 反 欺 诈 。 

(3) 决策 支持 : 利用 决策 树 技术 进 抵押 贷款 管理 ,利用 数据 分 析 报 告 实施 产业 信贷 
风险 控制 。 

(4) 效率 提升 : 利用 金融 行业 全 局 数据 了 解 业务 运营 薄弱 点 ,利用 大 数据 技术 加 快 
内 部 数据 处 理 速度 。 

(5) 产品 设计 : 利用 大 数据 计算 技术 为 财富 客户 推荐 产品 ,利用 客户 行为 数据 设计 
满足 客户 需求 的 金融 产品 。 

3. 医疗 行业 

医疗 行业 拥有 大 量 病例 、 病 理 报告 .医疗 方案 、 药 物 报告 等 。 如 果 这 些 数据 进行 整理 
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和 分 析 , 将 会 极 大 地 帮助 医生 和 病人 。 在 未 来 ,借助 于 大 数据 平台 我 们 可 以 收集 疾病 的 基 
本 特征 .病例 和 治疗 方案 ,建立 针对 疾病 的 数据 库 ,帮助 医生 进行 疾病 诊断 。 

如 果 未 来 基因 技术 发 展 成 熟 ,可 以 根据 病人 的 基因 序列 特点 进行 分 类 ,建立 医疗 行业 
的 病人 分 类 数据 库 。 在 医生 诊断 病人 时 可 以 参考 病人 的 疾病 特征 、 化 验 报告 和 检测 报告 ， 
参考 疾病 数据 库 来 快速 帮助 病人 确诊 。 在 制定 治疗 方案 时 ,医生 可 以 依据 病人 的 基因 特 
点 , 调 取 相似 基因 ,年 龄 、 人 种 、 身 体 情况 相同 的 有 效 治疗 方案 ,制定 出 适合 病人 的 治疗 方 
案 , 帮 助 更 多 人 及 时 进行 治疗 。 同 时 这 些 数据 也 有 利于 医药 行业 开发 出 更 加 有 效 的 药物 
和 医疗 器 械 。 

医疗 行业 的 数据 应 用 一 直 在 进行 ,但 是 数据 没有 打通 ,都 是 孤岛 数据 ,没有 办 法 大 规 
模 应 用 。 未 来 需要 将 这 些 数据 统一 收集 起 来 ,纳入 统一 的 大 数据 平台 ,为 人 类 健康 造福 。 
政府 是 推动 这 一 趋势 的 重要 动力 ,未 来 市 场 将 会 超过 几 千 亿 元 。 

4. 农 牧 业 

农产品 不 容易 保存 ,合理 种 植 和 养殖 农产品 对 农民 非常 重要 。 借 助 于 大 数据 提供 的 
消费 能 力 和 趋势 报告 ,政府 将 为 农 牧 业 生 产 进行 合理 引导 ,依据 需求 进行 生产 ,避免 产能 
过 剩 , 造 成 不 必要 的 资源 和 社会 财富 浪费 。 大 数据 技术 可 以 帮助 政府 实现 农业 的 精细 化 
管理 ,实现 科学 决策 。 在 数据 驱动 下 ,结合 无 人 机 技术 ,农民 可 以 采集 农产品 生长 信息 、 病 
虫害 信息 。 

农业 生产 面临 的 危险 因素 很 多 ,但 这 些 危 险 因素 很 大 程度 上 可 以 通过 除草 剂 .杀菌 
剂 . 杀 虫 剂 等 技术 产品 进行 消除 。 天 气 成 了 影响 农业 非常 大 的 决定 因素 。 过 去 的 天 气 预 
报 仅仅 能 提供 当地 的 降雨 量 , 但 农民 更 关心 有 多 少 水 分 可 以 留 在 土地 上 ,这 些 是 受降 雨量 
和 土质 来 决定 的 。Climate 公司 利用 政府 开放 的 气象 站 的 数据 和 土地 数据 建立 了 模型 ， 
可 以 告诉 农民 可 以 在 哪些 土地 上 耕种 ,哪些 土地 今天 需要 喷雾 并 完成 耕种 ,哪些 正 处 于 生 
长 期 的 土地 需要 施肥 ,哪些 土地 需要 5 天 后 才 可 以 耕种 ,大 数据 技术 可 以 帮助 农业 创造 巨 
大 的 商业 价值 。 

5. 零售 行业 

零售 行业 比较 有 名 气 的 大 数据 案例 就 是 沃尔玛 的 啤酒 和 尿布 的 故事 ,以 及 Target 通 
过 向 年 轻 女孩 寄 送 尿布 广告 而 告知 其 父亲 女孩 怀孕 的 故事 。 

零售 行业 可 以 通过 客户 购买 记录 ,了 解 客 户 关联 产品 购买 喜好 ,将 相关 的 产品 放 到 一 
起 增加 来 增加 产品 销售 额 ,例如 将 洗衣 服 相关 的 化 工 产品 例如 洗衣 粉 、 消 毒液 , 衣 领 净 等 
放 到 一 起 进行 销售 。 根 据 客户 相关 产品 购买 记录 而 重新 摆 放 的 货物 将 会 给 零售 企业 增加 
30% 以 上 的 产品 销售 额 。 

零售 行业 还 可 以 记录 客户 购买 习惯 ,将 一 些 日 常 需要 的 必 备 生活 用 品 ,在 客户 即将 用 
完 之 前 ,通过 精准 广告 的 方式 提醒 客户 进行 购买 。 或 者 定期 通过 网 上 商城 进行 送 货 , 既 帮 
助 客户 解决 了 问题 ,又 提高 了 客户 体验 。 

电 商 行业 的 巨头 一 一 天 猫 和 京东 ,已 经 通过 客户 的 购买 习惯 ,将 客户 日 常 需要 的 商品 
例如 尿 不 湿 、 卫 生 纸 、 衣 服 等 商品 依据 客户 购买 习惯 事先 进行 准备 。 当 客户 刚刚 下 单 , 商 
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品 就 会 在 24 小 时 内 或 者 30 分 钟 内 送 到 客户 门口 ,提高 了 客户 体验 ,让 客户 连 后 悔 的 时 间 
都 没有 。 

利用 大 数据 的 技术 ,零售 行业 将 至 少 会 提高 30% 左 右 的 销售 额 ,并 提升 客户 购买 
体验 。 


6. 大 数据 技术 产业 


进入 移动 互联 网 之 后 , 非 结 构 化 数据 和 结构 化 数据 呈 指 数 方式 增长 。 现 在 人 类 社会 
每 两 年 产生 的 数据 将 超过 人 类 历史 过 去 所 有 数据 之 和 。 这 些 数据 如 何 存储 和 处 理 将 会 成 
为 很 大 的 问题 。 

这 些 大 数据 为 大 数据 技术 产业 提供 了 巨大 的 商业 机 会 。 据 估计 全 世界 在 大 数据 采 
集 、 存 储 、 处 理 、 清 晰 .分 析 所 产生 的 商业 机 会 将 会 超过 2000 亿美 元 ,包括 政府 和 企业 在 大 
数据 计算 和 存储 ,数据 挖掘 和 处 理 等 方面 等 投资 。 中 国 2014 年 大 数据 产业 产值 已 经 超过 
了 千 亿 人 民 币 ,贵阳 大 数据 博览 会 就 吸引 了 400 多 家 厂商 来 参展 ,充分 说 明 大 数据 产业 的 
未 来 的 商业 价值 巨大 。 

未 来 中 国 的 大 数据 产业 将 会 呈 几 何 级 数 增长 ,在 5 年 之 内 ,中 国 的 大 数据 产业 将 会 形 
成 万 亿 规模 的 市 场 。 不 仅仅 是 大 数据 技术 产品 的 市 场 , 也 将 是 大 数据 商业 价值 变现 的 市 
场 。 大 数据 将 会 在 企业 的 精准 营销 、 决 策 分 析 、 风 险 管理 ,产品 设计 、 运 车 优化 等 领域 发 挥 
重大 的 作用 。 

大 数据 技术 产业 将 会 解决 大 数据 存储 和 处 理 的 问题 ,大 数据 服务 公司 将 利用 自身 的 
数据 将 解决 大 数据 价值 变现 问题 ,其 所 带 来 的 市 场 规模 将 会 超过 千 亿 人 民 币 。 中 国 目 前 
拥有 大 数据 ,并 提供 大 数据 价值 变现 服务 的 公司 除了 众所周知 的 BAT 和 移动 运营 商 之 
外 ,360 ,小米 .京东 等 都 会 成 为 大 数据 价值 变现 市 场 的 有 力 参 与 者 ,期 望 他 们 将 市 场 进 一 
步 做 大 ,帮助 所 有 企业 实现 大 数据 价值 变现 。 

7. 物流 行业 

中 国 的 物流 产业 规模 大 概 有 5 万 亿 元 左右 ,其 中 公里 物流 市 场 大 概 有 3 万 亿 元 左右 。 
物流 行业 的 整体 净利 润 从 过 去 的 30% 以 上 降低 到 了 20% 左 右 ,并 且 下 降 的 趋势 明显 。 物 
流行 业 很 多 的 运力 浪费 在 返程 空 载 . 重 复 运输 、 小 规模 运输 等 方面 。 中 国 市 场 最 大 等 物流 
公司 所 占 的 市 场 份额 不 到 1% 。 因 此 资源 需要 整合 ,运送 效率 需要 提高 。 

物流 行业 借助 于 大 数据 ,可 以 建立 全 国 物 流 网 络 , 了 解 各 个 结 点 的 运 货 需求 和 运力 ， 
合理 配置 资源 ,降低 货车 的 返程 空 载 率 ,降低 超载 率 , 减 少 重复 路 线 运输 ,降低 小 规模 运输 
比例 。 通 过 大 数据 技术 ,及 时 了 解 各 个 路 线 货物 运送 需求 ,同时 建立 基于 地 理 位 置 和 产业 
链 的 物流 港口 ,实现 货物 和 运力 的 实时 配 比 ,提高 物流 行业 的 运输 效率 。 借 助 于 大 数据 技 
术 对 物流 行业 进行 的 优化 资源 配置 ,至 少 可 以 增加 物流 行业 10% 左 右 的 收入 ,其 市 场 从 
值 将 在 5000 亿 元 左右 。 

8. 房地产 业 

中 国 房地产 业 发 展 的 高 峰 已 经 过 去 ,其 面临 的 挑战 逐渐 增加 ,房地产 业 正 从 过 去 的 粗 
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放 发 展 方式 转向 精细 运营 方式 ,房地产 企业 在 拍卖 土地 ,住房 地 产 开发 规划 、 商 业 地 产 规 
划 方 面 也 将 会 谨慎 进行 。 

借助 于 大 数据 ,特别 是 移动 大 数据 技术 。 房 地 产业 可 以 了 解 开发 土地 所 在 范围 常住 
人 口 数 量 、 流 动人 口 数量 、 消 费 能 力 ,消费 特点 ,年 龄 阶段 ,人 口 特征 等 重要 信息 。 这 些 信 
息 将 会 帮助 房地产 商 在 商业 地 产 开发 .商户 招商 ,房屋 类 型 ,小 区 规模 进行 科学 规划 。 利 
用 大 数据 技术 ,房地产 行业 将 会 降低 房地产 开发 前 的 规划 风险 ,合理 制定 房价 ,合理 制定 
开发 规模 ,合理 进行 商业 规划 。 大 数据 技术 可 以 降低 土地 价格 过 高 .实际 购房 需求 过 低 的 
风险 。 已 经 有 房地产 公司 将 大 数据 技术 应 用 于 用 户 画 像 、 土 地 规划 、 商 业 地 产 开发 等 领 
域 ,并 取得 了 良好 的 效果 。 

9. 制造 业 

制造 业 过 去 面临 生产 过 剩 的 压力 ,很 多 产品 包括 家 电 、 纺 织 产品 ,钢材 水泥、 电解 
铝 等 都 没有 按照 市 场 实际 需要 生产 ,造成 了 资源 的 极 大 浪费 。 利 用 电 商 数据 移动 互 
联网 数据 、 零 售 数据 ,我 们 可 以 了 解 未 来 产品 市 场 都 需求 ,合理 规划 产品 生产 ,避免 生 
产 过 剩 。 

例如 ,依据 用 户 在 电 商 搜索 产品 的 数据 以 及 物流 数据 ,可 以 推测 出 家 电 产 品 和 纺织 产 
品 未 来 的 实际 需求 量 , 厂 家 将 依据 这 些 数据 来 进行 生产 ,避免 生产 过 剩 。 移 动 互联 网 的 位 
置信 息 可 以 帮助 了 解 当 地 人 口 进 出 的 趋势 ,避免 生产 过 多 的 钢材 和 水 泥 。 

大 数据 技术 还 可 以 根据 社交 数据 和 购买 数据 来 了 解 客户 需求 ,帮助 厂商 进行 产品 开 
发 ,设计 和 生产 出 满足 客户 需要 的 产品 。 

10. 互联 网 广告 业 


2014 年 中 国 互 联网 广告 市 场 迎 来 发 展 高 峰 ,市 场 规模 预计 达到 1500 亿 元 左右 , 较 
2013 年 增长 56. 5%。 数 字 广 告 越 来 越 受到 广告 主 的 重视 ,其 未 来 市 场 规模 越 来 越 大 。 
2014 年 美国 的 互联 网 广告 市 场 规模 接近 500 亿美 元 ,参考 中 国 的 人 口 消费 能 力 ,其 市 场 
规模 会 很 快 达到 2000 亿 元 人 民 币 左右 。 

过 去 到 广告 投放 都 是 以 好 的 广告 渠道 十 广播 式 投放 为 主 , 广 告 主将 广告 交 给 广告 公 
司 ,由 广告 公司 安排 投放 ,其 中 SEM 广告 市 场 最 大 ,其 他 的 广告 投放 方式 也 是 以 页 面 展 
示 为 主 ,大 多 是 广播 式 广告 投放 。 广 播 式 投放 的 商 端 是 投入 资金 大 ,没有 针对 目标 客户 ， 
面 对 所 有 客户 进行 展示 ,广告 的 转化 率 较 低 ,并 存在 数字 广告 营销 陷阱 等 问题 。 

大 数据 技术 可 以 将 客户 在 互联 网 上 的 行为 记录 下 来 ,对 客户 的 行为 进行 分 析 , 打 上 标 
签 并 进行 用 户 画像 。 特 别 是 进入 移动 互联 网 时 代 之 后 ,客户 主要 的 访问 方式 转向 了 智能 
手机 和 平板 电脑 ,移动 互联 网 的 数据 包含 了 个 人 的 位 置信 息 , 其 360 度 用 户 画 像 更 加 接近 
真实 人 群 。360 度 用 户 画 像 可 以 帮助 广告 主 进行 精准 营销 ,广告 公司 可 以 依据 用 户 画 像 
的 信息 ,将 广告 直接 投放 到 用 户 的 移动 设备 ,通过 用 户 经 常 使 用 的 APP 进行 广告 投放 ,其 
广告 的 转化 可 以 大 幅度 提高 。 利 用 移动 互联 网 大 数据 技术 进行 的 精准 营销 将 会 提高 十 倍 
以 上 的 客户 转化 率 , 广 告 行业 的 程序 化 购买 正在 逐步 替代 广播 式 广告 投放 。 大 数据 技术 
将 帮助 广告 主 和 广告 公司 直接 将 广告 投放 给 目标 用 户 ,从 而 降低 广告 投入 ,提高 广告 的 转 
化 率 。 
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1.7 大 数据 与 商业 模式 创新 


1.7.1 商业 模式 的 创新 特点 


商业 模式 创新 的 企业 有 几 个 共同 特征 ,或 者 说 构成 商业 模式 创新 的 特点 。 

(1) 商业 模式 创新 更 注重 从 客户 的 角度 ,从 根本 上 思考 设计 企业 的 行为 ,视角 更 为 外 
向 和 开放 ,更 多 注重 和 涉及 企业 经 济 方面 的 因素 。 

商业 模式 创新 的 出 发 点 ,是 如 何 从 根本 上 为 客户 创造 增加 的 价值 。 因 此 ,其 逻辑 思考 
的 起 点 是 客户 的 需求 ,根据 客户 需求 考虑 如 何 有 效 满足 它 ,这 点 明显 不 同 于 许多 技术 创 
新 。 用 一 种 技术 可 能 有 多 种 用 途 ,技术 创新 的 视角 常常 是 从 技术 特性 与 功能 出 发 ,看 它 能 
用 来 干什么 ,去 找 它 潜在 的 市 场 用 途 。 商 业 模式 创新 即使 涉及 技术 ,也 多 是 和 技术 的 经 济 
方面 因素 ,与 技术 所 蕴含 的 经 济 价值 及 经 济 可 行 性 有 关 , 而 不 是 纯粹 的 技术 特性 。 

(2) 商业 模式 创新 表现 得 更 为 系统 和 根本 , 它 不 是 单一 因素 的 变化 。 它 常常 涉及 商 
业 模式 多 个 要 素 同 时 大 的 变化 ,需要 企业 组 织 的 较 大 战略 调整 ,是 一 种 集成 创新 。 商 业 模 
式 创 新 往往 伴随 产品 .工艺 或 者 组 织 的 创新 ;反之 , 则 未 必 足 以 构成 商业 模式 创新 。 

如 开发 出 新 产品 或 者 新 的 生产 工艺 ,就 是 通常 认为 的 技术 创新 。 技 术 创新 ,通常 是 对 
有 形 实物 产品 的 生产 来 说 的 。 但 如 今 是 服务 为 主导 的 时 代 , 如 美国 2006 年 服务 业 比重 高 
达 68. 1% ,对 传统 制造 企业 来 说 ,服务 也 远 比 以 前 重要 。 因 此 ,商业 模式 创新 也 常 体现 为 
服务 创新 ,表现 为 服务 内 容 及 方式 及 组 织 形态 等 多 方面 的 创新 变化 。 

(3) 从 绩效 表现 看 ,商业 模式 创新 如 果 提 供 全 新 的 产品 或 服务 ,那么 它 可 能 开创 了 一 
个 全 新 的 可 赢利 产业 领域 ,即便 提供 已 有 的 产品 或 服务 ,也 更 能 给 企业 带 来 更 持久 的 赢利 
能 力 与 更 大 的 竞争 优势 。 

传统 的 创新 形态 ,能 带 来 企业 局 部 内 部 效率 的 提高 和 成 本 的 降低 ,而 且 它 容 易 被 其 他 
企业 在 较 短期 时 期 模仿 。 商 业 模 式 创新 ,虽然 也 表现 为 企业 效率 提高 .成 本 降低 ,由 于 它 
更 为 系统 和 根本 ,涉及 多 个 要 素 的 同时 变化 ,因此 , 它 也 更 难以 被 竞争 者 模仿 , 常 给 企业 带 
来 战略 性 的 竞争 优势 ,而 且 优 势 常 可 以 持续 数 年 。 


1.7.2 商业 模式 创新 可 以 为 企业 带 来 什么 


1. 战略 定位 创新 
战略 定位 创新 主要 是 围绕 企业 的 价值 主张 .目标 客户 及 顾客 关系 方面 的 创新 ,具体 指 
企业 选择 什么 样 的 顾客 ,为 顾客 提供 什么 样 的 产品 或 服务 ,希望 与 顾客 建立 什么 样 的 关 
系 , 其 产品 和 服务 能 向 顾客 提供 什么 样 的 价值 等 方面 的 创新 。 在 激烈 的 市 场 竞争 中 ,没有 
哪 一 种 产品 或 服务 能 够 满足 所 有 的 消费 者 ,战略 定位 创新 可 以 帮助 我 们 发 现 有 效 的 市 场 
会 ,提高 企业 的 竞争 力 。 在 战略 定位 创新 中 ,企业 首先 要 明白 自己 的 目标 客户 是 谁 ,其 
次 是 如 何 让 企业 提供 的 产品 或 服务 在 更 大 程度 上 满足 目标 客户 的 需求 ,在 前 两 者 都 确定 
的 基础 上 ,再 分 析 选 择 何 种 客户 关系 。 合 适 的 客户 关系 也 可 以 使 企业 的 价值 主张 更 好 地 
满足 目标 客户 。 
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2. 资源 能 力 创新 

资源 能 力 创新 是 指 企业 对 其 所 拥有 的 资源 进行 整合 和 运用 能 力 的 创新 ,主要 是 围绕 
企业 的 关键 活动 ,建立 和 运转 商业 模式 所 需要 的 关键 资源 的 开发 和 配置 成 本 及 收入 源 方 
面 的 创新 。 所 谓 关键 活动 ,是 指 影响 其 核心 竞争 力 的 企业 行为 ;关键 资源 指 能 够 让 企业 创 
造 并 提供 价值 的 资源 ,主要 指 那些 其 他 企业 不 能 够 代替 的 物质 资产 .无形 资产 .人 力 资本 
等 。 在 确定 了 企业 的 目标 客户 、 价 值 主张 及 顾客 关系 之 后 ,企业 可 以 进一步 进行 资源 能 力 
的 创新 。 

战略 定位 是 企业 进行 资源 能 力 创新 的 基础 ,而 且 资 源 能 力 创新 的 四 个 方面 也 是 相互 
影响 的 。 一 方面 ,企业 要 分 析 在 价值 链条 上 自己 拥有 或 希望 拥有 那些 别人 不 能 代替 的 关 
键 能 力 ,根据 这 些 能 力 进行 资源 的 开发 与 配置 ; 另 一 方面 ,如 果 企 业 拥有 某 项 关键 资源 如 
专利 权 , 也 可 以 针对 其 关键 资源 制定 相关 的 活动 ;对 关键 能 力 和 关键 资源 的 创新 也 必 将 引 
起 收入 源 及 成 本 的 变化 。 

3. 商业 生态 环境 创新 

商业 生态 环境 创新 是 指 企业 将 其 周围 的 环境 看 作 一 个 整体 ,打造 出 一 个 可 持续 发 展 
的 共 赢 的 商业 环境 。 商 业 生态 环境 创新 主要 围绕 企业 的 合作 伙伴 进行 创新 ,包括 供应 商 、 
经 销 商 及 其 他 市 场 中 介 ,在 必要 的 情况 下 ,还 包括 其 竞争 对 手 。 市 场 是 千变万化 的 ,顾客 
的 需求 也 在 不 断 变化 ,单个 企业 无 法 完全 完成 这 一 任务 ,企业 需要 联盟 .需要 合作 来 达到 
共 赢 。 

企业 战略 定位 及 内 部 资源 能 力 都 是 企业 建立 商业 生态 环境 的 基础 。 没 有 良好 的 战略 
定位 及 内 部 资源 能 力 ,企业 将 失去 挑选 优秀 外 部 合作 者 的 机 会 以 及 与 他 们 议价 的 筹码 。 
一 个 可 持续 发 展 的 共 赢 的 商业 环境 也 将 为 企业 未 来 发 展 及 运营 能 力 提供 保证 。 

4. 混合 商业 模式 创新 

混合 商业 模式 创新 是 一 种 战略 定位 创新 .资源 能 力 创新 和 商业 生态 环境 创新 相互 结 
合 的 方式 。 据 研究 ,企业 的 商业 模式 创新 一 般 都 是 混合 式 的 ,因为 企业 商业 模式 的 构成 要 
素 战略 定位 、 内 部 资源 、 外 部 资源 环境 之 间 是 相互 依赖 ,相互 作用 的 ,每 一 部 分 的 创新 都 会 
引起 另 一 部 分 相应 的 变化 。 而 且 , 这 种 由 战略 定位 创新 ,资源 能 力 创新 和 商业 能 力 创新 两 
两 相 结 合 甚至 同时 进行 的 创新 方式 ,都 会 为 企业 经 营业 绩 带 来 巨大 的 改善 。 


1.7.3 ”基于 大 数据 分 析 的 商业 模式 创新 


1. 加 大 数据 处 理 分 析 能 力 

所 谓 大 数据 ,最 为 核心 的 就 要 看 对 于 大 量 数据 的 核心 分 析 能 力 。 但 是 ,大 数据 核心 分 
析 能 力 的 影响 不 仅 存在 于 数据 管理 策略 .数据 可 视 化 与 分 析 能 力 等 方面 ,从 根本 上 也 对 数 
据 中 心 IT 基础 设施 架构 甚至 机 房 设计 原则 等 提出 了 更 高 的 要 求 。 为 了 达到 快速 高 效 的 
处 理 大 量 数据 的 能 力 ,整个 IT 基础 设施 需要 进行 整体 优化 设计 ,应 充分 考量 后 台数 据 中 
心 的 高 节能 性 ,高 稳定 性 ,高 安全 性 ,高 可 扩展 性 ,高度 宛 余 .基础 设施 建设 这 六 个 方面 , 同 
时 更 需要 解决 大 规模 结 点 数 的 数据 中 心 的 部 署 .高速 内 部 网 络 的 构建 .机 房 散热 以 及 强大 


Es 


的 数据 备份 等 问题 。 

2. 提高 专业 技术 人 员 的 技术 水 平 

有 这 样 一 则 故事 , 讲 的 是 福特 爱 “ 才 ”、 取 之 有 道 的 故事 : 有 一 次 福特 公司 的 一 台 马 达 
坏 了 ,公司 出 动 所 有 的 工程 技术 人 员 , 但 是 没有 一 个 人 能 修复 ,福特 公司 只 得 另 请 高 明 。 
几经 寻找 ,找到 了 坦 因 曼 思 ,他 原 是 德国 工程 技术 人 员 ,流落 到 美国 后 ,被 一 家 小 工厂 的 老 
板 看 中 并 雇用 了 他 。 

他 到 了 现场 后 ,在 马达 旁听 了 听 , 要 了 把 梯子 ,一 会 儿 候 上 一 会 候 下 ,最 后 在 马达 
的 一 个 部 位 用 粉笔 画 一 道 线 , 写 上 几 个 字 “ 这 儿 的 线圈 多 了 16 圈 ”"。 果 然 把 多 余 的 线 
阀 去 掉 , 马 达 立 即 恢复 正常 。 享 利 。 福 特 非常 赏识 坦 因 曼 思 的 才华 ,就 邀请 他 来 福特 
公司 工作 ,但 坦 因 曼 思 却说 :“ 我 现在 的 公司 对 我 很 好 ,我 不 能 忘 恩 负 义 ”。 福 特 马上 
说 :“ 我 把 你 供职 的 公司 买 下 来 ,你 就 可 以 来 工作 了 .。? 福 特 为 了 得 到 一 个 人 才 不 惜 买 下 
了 一 个 公司 ; 

由 此 可 见 人 才 的 重要 性 ,因此 企业 要 采取 多 种 形式 引进 优秀 人 才 。 在 注重 优秀 人 才 
引进 的 同时 加 强 对 人 才 的 教育 和 培养 。 建 立 合理 的 人 力 资 源 管 理 体制 。 建 立 起 合理 的 薪 
酬 制度 和 员工 激励 制度 。 中 小 企业 可 以 积极 满足 员工 的 各 种 需要 ,促进 组 织 目标 实现 的 
福利 项 目 。 比 如 医疗 福利 等 ,为 员工 提供 一 个 自我 发 展 的 有 舞台、 自我 价值 实现 的 桥梁 。 

同时 ,还 可 以 借鉴 在 西方 国家 盛行 的 “弹性 福利 计划 ”, 由 员工 在 企业 规定 的 时 间 和 人 金 
额 范围 内 ,按照 自己 的 意愿 搭建 自己 的 福利 项 目 组 合 , 满 足 员工 对 福利 灵活 机 动 的 要 求 ， 
提高 员工 的 满意 度 ,最终 实 现 留 住 优秀 人 才 的 长 远 发 展 目标 。 

3. 理论 与 实践 相 结合 促进 商业 模式 的 创新 


阿里 巴巴 是 全 球 企业 界 电子 商务 的 著名 品牌 ,是 目前 全 球 最 大 的 网 上 交易 市 场 和 商 
务 交 流 社区 。 良 好 的 定位 ,稳固 的 结构 ,优秀 的 服务 使 阿里 巴巴 为 全 球 首 家 拥有 600 余 万 
商人 的 电子 商务 网 站 ,成 为 全 球 商 人 网 络 推广 的 首选 网 站 ,被 商人 们 评委 “最 受 欢迎 的 
B2B 网 站 ”。 阿 里 巴巴 商业 模式 创新 的 成 功 主要 可 归功 于 其 相对 完善 的 网 上 诚信 保障 机 
制 的 建立 。 

(1) 精准 的 市 场 定 位 。 

阿里 巴巴 清晰 地 为 业界 定位 其 目标 客户 一 一 众多 的 中 小 企业 。 阿 里 巴巴 相关 人 士 认 
为 : 在 全 球 化 日 益 发 展 的 今天 ,中 小 企业 无 疑 将 拥有 更 多 的 介入 机 会 和 发 展 动力 ,依靠 自 
身 激动 灵活 的 优势 获得 更 大 的 成 长 空间 。 

(2) 关键 资源 能 力 的 构建 。 

一 是 团队 智慧 。 阿 里 巴巴 团队 认为 ,帮助 客户 合同 是 成 功 , 才 是 自己 成 功 的 最 好 体 
现 。 二 是 文化 资源 。 阿 里 巴巴 共享 价值 观 体系 的 强大 企业 文化 可 归纳 为 六 个 核心 价值 
观 , 即 客户 第 一 、 团 队 合作 、 拥 抱 变化 诚信、 激情 .敬业 。 

(3) 成 功 的 盈利 模式 。 

阿里 巴巴 的 利润 主要 来 源 于 注册 会 员 缴纳 的 会 员 费 。 其 付费 会 员 有 两 种 类 型 : 国际 
交易 平台 的 会 员 和 国内 交易 平台 的 会 员 。 
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1.8 如 何 成 为 “大 数据 企业 ” 


对 企业 而 言 , 大 数据 实质 上 是 一 种 管理 思维 ,其 支点 在 于 业务 信息 资源 与 社交 媒体 的 
融合 ,以 及 内 外 部 数据 的 融合 ,在 这 样 的 支点 上 反思 企业 的 组 织 形 态 .运作 范式 和 价值 创 
造 模式 ,是 “大 数据 企业 ”的 真正 内 涵 所 在 。 

一 家 中 等 规模 的 百货 商场 ,通过 视频 监控 记录 商场 各 个 区 域 的 客流 人 数 , 从 而 评估 每 
天 各 个 时 段 客流 的 在 店 时 长 ,进而 结合 销售 记录 数据 估算 出 客流 中 带 有 了 明确 购买 目标 的 
“搜索 型 "顾客 和 无 明确 购买 目标 的 “浏览 型 "顾客 的 比例 ,从 而 为 之 设计 有 针对 性 的 营销 
手段 和 服务 措施 。 

这 一 实践 中 所 涉及 的 数据 量 , 从 技术 视角 上 看 并 不 算 庞 大 ,但 该 商场 对 多 源 数据 的 整 
合 和 开发 ,不 失 为 基于 大 数据 管理 的 一 种 典型 体现 。 

从 理论 上 来 说 ,每 个 企业 都 可 能 拥有 大 数据 ,但 是 并 非 每 个 企业 都 能 够 成 为 大 数据 
企业 。 

大 数据 因 其 体 量 之 “大 ”而 得 名 ,然而 体 量 并 非 大 数据 的 唯一 特征 ,甚至 也 不 是 大 数据 
最 为 重要 的 特征 。 巨 大 的 体 量 凸 显 的 是 技术 需求 。 而 对 于 管理 者 而 言 ,刻意 追求 巨大 体 
量 的 数据 并 不 具有 多 少 现实 意义 ,大 数据 更 重要 的 特征 在 于 其 多 样 化 的 来 源 和 形态 ,持续 
快速 的 产生 和 演变 ,以 及 对 深度 分 析 能 力 的 高 度 依赖 。 因 此 ,企业 对 大 数据 的 驾驭 和 掌 
控 , 其 核心 并 不 在 于 拥有 多 大 规模 的 数据 ,而 在 于 是 否 能 够 对 来 自 于 企业 内 外 部 多 样 化 信 
息 源 的 涌流 数据 进行 敏捷 持续 的 捕捉 和 整合 ,并 通过 深度 分 析 开 发 其 商务 价值 。 

在 管理 视角 上 ,大 数据 既 不 是 一 种 技术 ,也 不 是 一 种 应 用 系统 ,而 更 应 该 是 一 种 立足 
于 企业 内 外 部 数据 融合 以 提升 管理 效率 .开拓 价值 创造 模式 的 管理 思维 。 

企业 内 部 数据 有 两 个 主要 维度 : 

一 是 与 业务 功能 及 流程 紧密 相关 的 数据 ,如 库存 信息 、 物 料 需求 信息 、 生 产 计划 信息 、 
采购 信息 等 ,可 统称 为 业务 流程 信息 

二 是 企业 内 员工 及 各 种 管理 系统 在 其 日 常 工作 及 活动 中 所 创造 .记录 ,交换 和 积累 的 
信息 ,例如 员工 间 的 交流 记录 、 工 作 心得 、 经 验 分 享 、 活 动 新 闻 等 ,可 统称 为 知识 及 沟通 
信息 。 

这 两 个 数据 维度 的 发 展 和 融合 ,催生 出 了 企业 内 部 大 数据 ,如 图 1.8 所 示 。 

在 集成 化 企业 系统 、 内 部 社交 媒体 以 及 深度 数据 分 析 技 术 的 共同 支撑 下 ,杰克 。 韦 尔 
奇 所 畅想 的 “无 边界 组 织 ” 在 新 兴 环 境 下 成 为 可 能 ,并 被 赋予 了 新 的 内 涵 。 部 门 边界 、 层 级 
边界 被 紧密 的 业务 联系 和 广泛 的 社交 联系 所 弱化 ,结构 化 的 业务 流程 信息 与 非 结 构 化 的 
知识 及 管理 活动 信息 被 多 维度 融合 的 深度 数据 分 析 能 力 连接 在 一 起 ,从 而 使 企业 真正 具 
有 驾驭 内 部 大 数据 的 能 力 。 


1.8.1 驾驭 企业 外 部 大 数据 


在 企业 外 部 的 视角 上 ,数据 资源 也 包括 两 个 维度 : 
一 是 与 上 下 游 交 易 直 接 相 关 的 供应 链 信 息 ,如 交易 报价 信息 ,订单 信息 、 上 下 游 企业 
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1.8 企业 内 部 大 数据 


库存 及 生产 能 力 信息 等 ; 

二 是 市 场 及 社会 环境 信息 ,如 原材料 价格 走势 .市 场 需 求 及 消费 者 偏好 信息 、 顾 客服 
务 及 满意 度 信息 等 。 

企业 外 部 大 数据 的 基本 特征 ,也 正 是 在 这 两 个 维度 的 发 展 之 中 呈现 出 来 的 。 

供应 链 信息 集成 与 社会 化 商务 信息 的 融合 ,构成 企业 外 部 大 数据 的 核心 特征 。 来 自 
于 社交 媒体 信息 源 的 市 场 环境 信息 与 来 自 于 组 织 间 信息 系统 的 供应 链 信息 相 结合 ,借助 
于 深度 数据 分 析 技 术 实现 面向 企业 商务 网 络 的 预测 与 优化 ,并 支撑 起 实时 化 、 精 确 化 ,个 
性 化 的 消费 者 洞察 与 敏捷 响应 ,在 此 基础 上 为 基于 网 络 协同 及 社会 化 商务 的 模式 创新 提 
供 了 丰富 的 可 能 性 。 因 此 ,对 外 部 大 数据 的 管理 和 驾驭 ,也 将 成 为 现代 企业 在 网 络 化 的 商 
务 生态 系统 中 占据 主导 地 位 并 获取 经 营 优势 的 关键 途径 。 


1.8.2 成 为 “大 数据 企业 ” 


基于 以 上 分 析 , 企 业内 部 大 数据 的 焦点 ,在 于 业务 流程 信息 与 知识 及 沟通 信息 的 融 
合 ;企业 外 部 大 数据 的 焦点 ,在 于 供应 链 信息 与 市 场 及 社会 环境 信息 的 融合 。 进 而 ,大 数 
据 时 代 企业 组 织 的 基本 内 涵 , 在 于 内 部 大 数据 与 外 部 大 数据 的 全 方位 融合 。 如 图 1. 9 所 
示 , 大 数据 企业 立足 于 内 外 部 业务 与 社交 媒体 数据 的 集成 交汇 。 

在 这 四 大 类 型 的 数据 之 间 , 致 力 于 大 数据 管理 的 企业 可 以 有 两 种 不 同 的 发 展 策略 。 

第 一 种 是 以 社交 媒体 与 业务 数据 的 融合 为 主导 ,以 期 通过 敏捷 响应 快速 发 现 并 应 对 
内 外 部 环境 中 的 变化 和 机 遇 。 在 这 种 策略 下 ,面向 高 速 数 据 流 的 实时 数据 采集 和 分 析 方 
法 ,将 成 为 大 数据 管理 的 主要 支撑 手段 。 

第 二 种 策略 是 以 内 外 部 数据 融合 为 主导 ,以 期 通过 全 面 汇 集 内 外 部 信息 ,对 中 长 期 发 
展 趋势 做 出 准确 的 预 判 ,从 而 实现 高 度 优化 的 业务 决策 ,并 通过 对 信息 环境 的 掌控 ,获取 
企业 网 络 生态 系统 中 的 领导 地 位 。 在 这 种 策略 下 ,大 规模 多 源 异 构 数据 的 采集 、 清 洗 和 整 
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图 1.9 大 数据 企业 的 内 外 融合 
合 方法 ,将 成 为 大 数据 管理 的 核心 支撑 。 


1.8.3 如 何 挖掘 企业 大 数据 的 价值 


企业 大 数据 的 价值 开发 高 度 依赖 于 深度 数据 分 析 能 力 。 从 内 外 部 融合 的 视角 上 看 
来 ,企业 大 数据 分 析 包括 三 个 基本 维度 , 即 内 容 . 关 系 和 时 空 。 

1. 内 容 维 度 指 的 是 数据 本 身 所 承载 的 信息 内 容 

例如 ,G 公司 是 一 家 大 型 电信 服务 商 , 其 内 部 建设 实施 了 一 套 * 班 组 博客 ”系统 。 在 这 
个 内 部 社交 媒体 平台 上 ,公司 中 的 3000 多 个 工作 团队 都 开设 了 自己 的 博客 ,用 于 发 布 和 
交流 工作 经 验 、 生 活体 验 等 方面 的 内 容 。 经 过 数 年 的 发 展 ,整个 博客 系统 中 积累 了 博文 
700 多 万 篇 ,评论 超过 1500 万 条 ,并 保持 着 每 月 15 万 篇 以 上 的 博文 发 表 数量 ,年 阅读 量 
超过 1000 万 篇 次 。 

对 于 这 一 平台 所 积累 的 大 量 数据 的 价值 开发 ,首先 体现 在 对 其 信息 内 容 的 提炼 上 。 
平台 上 与 工作 相关 的 博文 内 容 , 如 客服 案例 .经 验 分 享 等 ,经 自动 筛选 分 类 .主题 识别 、 关 
键 词 索 引 之 后 ,被 构建 成 企业 知识 库 ,为 业务 及 管理 工作 提供 快速 有 效 的 知识 支撑 ,同时 
成 为 员工 培训 和 自学 的 有 力 工具 。 而 大 量 与 工作 无 关 的 博文 和 评论 内 容 , 包 括 生活 常识 、 
娱乐 信息 ,心情 表达 ,心灵 鸡汤 等 ,在 智能 化 的 分 类 整理 之 后 ,也 成 为 该 公司 的 一 个 独特 的 
文化 情景 ,支撑 着 企业 中 活跃 的 氛围 ,强化 了 员工 的 文化 认同 。 

2. 关系 维度 指 的 是 数据 及 其 所 指 代 的 对 象 之 间 的 联系 

在 G 公司 的 班组 博客 中 ,员工 的 发 表 、 阅 读 , 评 论 .回复 .关注 等 行为 详尽 地 反映 了 其 
相互 之 间 密 集 而 持续 的 联系 ,而 这 些 联系 毫 无 遗漏 地 被 记录 在 平台 的 数据 库 之 中 。 通 过 
对 这 些 关 系 结构 的 深度 分 析 和 挖掘 ,G 公司 获得 了 对 员工 及 团队 的 影响 力 、 凝 聚 力 、 创 造 
力 的 更 为 准确 而 深入 的 评估 手段 。 进 一 步 而 言 ,博客 平台 的 行为 记录 数据 与 业务 系统 中 
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的 事务 处 理 记录 数据 ,以 及 员工 及 团队 的 绩效 表现 数据 ,也 能 够 被 有 效 地 关联 起 来 ,从 而 
使 得 管理 者 拥有 强 有 力 的 工具 ,帮助 其 发 现 和 理解 员工 的 行为 特质 .工作 表现 ,业务 能 力 
之 间 的 潜在 关联 ,进而 实现 良性 优化 的 人 员 配 置 和 人 才 培 养 。 

时 空 维度 指 的 是 数据 生成 及 传播 的 位 置 以 及 数据 随时 间 演 变 的 模式 。 对 G 公司 而 
言 , 其 数 以 千 计 的 业务 场所 分 散在 众多 城市 的 不 同 地 点 ,因此 ,数据 中 的 位 置信 息 对 于 虚 
拟 化 的 团队 协同 而 言 具 有 直接 的 意义 。 此 外 ,位 置信 息 也 包括 了 数据 在 组 织 功能 结构 和 
层级 结构 中 所 处 的 位 置 。 同 时 ,在 G 公司 的 班组 博客 中 ,对 特定 话题 时 间 演 变 规律 的 分 
析 , 也 为 管理 者 提供 了 有 效 的 参考 。 其 中 对 企业 重要 活动 .运营 理念 相关 信息 在 班组 博客 
中 的 传播 演变 模式 的 跟踪 ,有 效 地 揭示 了 员工 对 管理 理念 的 认 知 ,态度 和 接受 过 程 。 

3, 更 深入 的 价值 开发 来 自 于 上 述 三 个 维度 的 交叉 综合 

例如 ,内 容 维度 与 关系 维度 的 结合 ,使 得 G 公司 能 够 识别 员工 的 兴趣 偏好 、 社 交 特 
质 . 工 作 性 质 以 及 工作 表现 之 间 的 匹配 关系 ,也 能 够 更 为 准确 地 发 现 那些 分 散在 不 同 的 员 
工 手 中 ,但 具有 重要 潜在 影响 力 的 经 验 、 创 意 以 及 机 遇 信 号 。 内 容 维 度 . 关 系 维度 与 时 空 
维度 的 结合 ,使 得 企业 能 够 更 为 深入 地 理解 不 同 的 员工 特质 ,知识 技能 、 团 队 特 性 ,热点 偏 
好 在 整个 组 织 中 的 分 布 ,以 及 这 些 结构 随时 间 演 变 的 过 程 和 趋势 ,从 而 更 为 有 效 地 调度 和 
配置 这 些 资源 。 

这 些 维度 上 的 分 析 需 求 , 主 要 需要 三 方面 的 数据 分 析 技 术 予 以 支撑 。 

第 一 类 是 全 局 视图 技术 。 对 于 管理 者 而 言 , 对 大 数据 内 容 全 局 状况 的 把 握 ,往往 是 开 
发 大 数据 价值 的 一 个 基本 需求 。 然 而 大 数据 的 体 量 和 结构 复杂 性 往往 远 远 超出 人 类 认 知 
的 信息 承载 能 力 。 因 此 ,有 效 的 技术 应 当 能 够 在 大 量 数据 中 提取 出 一 个 足够 小 的 集合 以 
呈现 给 管理 者 ,并 使 得 这 个 小 集合 能 够 充分 地 代表 数据 全 局 。 例 如 ,在 G 公司 的 博客 平 
台 上 ,一 种 “代表 性 博文 提取 ”技术 能 够 在 每 天 所 出 现 的 数 以 千 计 的 博文 中 自动 选择 出 10 
篇 。 这 10 篇 博文 在 很 大 程度 上 全 面 代表 了 当天 所 出 现 的 数 千 篇 文章 , 既 充 分 反映 热点 ， 
也 不 会 忽略 冷门 信号 ,从 而 使 得 管理 者 能 够 通过 阅读 这 些 文章 来 了 解 全 局 。 

第 二 类 支撑 技术 是 关联 发 现 技术 ,其 目标 在 于 敏锐 识别 数据 间 的 联系 。 例 如 , 当 G 
公司 试图 整合 博客 平台 、 业 务 系统 、 人 力 资源 系统 中 的 数据 以 全 方位 分 析 员 工 、 团 队 特 质 
以 及 绩效 信息 时 ,大 量 的 数据 属性 之 间 所 构成 的 复杂 浴 在 关联 网 络 ,就 需要 强 有 力 的 关联 
发 现 技术 来 加 以 处 理 。 

第 三 类 支撑 技术 是 动态 跟踪 技术 , 即 实时 化 的 流 数据 分 析 处 理 、 快 速 增 量 数据 分 析 。 三 
方面 技术 都 处 于 快速 发 展 之 中 ,但 尚未 全 面 成 熟 , 有 待 于 学 界 和 业界 的 持续 努力 和 探索 。 


1.8.4 大 数据 实质 上 是 一 种 管理 思维 


从 一 定 意义 上 说 来 ,业务 资源 集成 与 社交 媒体 相 融 合 的 过 程 ,是 一 个 “信息 去 中 心 化 ” 
的 过 程 。 信 息 资 源 的 创造 和 管理 ,从 以 往 以 经 营 和 运作 为 核心 的 中 心 化 模式 ,转化 为 以 分 
散 创造 .自由 传播 .灵活 汇聚 为 特征 的 众 创 模式 。 另 一 方面 ,内 外 部 数据 融合 的 过 程 , 是 一 
个 “信息 去 边界 化 ”的 过 程 。 企 业 部 门 之 间 的 信息 交换 ,企业 之 间 的 信息 交换 以 及 企业 与 
市 场 环境 的 信息 ,以 日 益 多 样 化 ,实时 化 的 方式 实现 。 


人 


这 样 的 转变 对 于 企业 组 织 及 其 员工 而 言 ,其 影响 将 会 是 多 方面 的 。 正 面 的 影响 可 能 
包括 创新 意识 与 创新 行为 的 出 现 、 员 工 能 力 和 技能 的 发 展 、 沟 通 满意 度 的 提升 .员工 关系 
资本 的 建立 和 积累 、 员 工 对 组 织 的 认同 和 归属 感 的 增加 ;而 负面 的 影响 则 可 能 包括 员工 注 
意 力 分 散 、 过 度 争论 ,以 及 负面 情绪 的 传播 等 。 所 以 ,建设 “大 数据 企业 ”的 过 程 ,也 将 会 是 
一 个 伴随 着 困难 与 风险 的 过 程 。 在 此 过 程 中 ,需要 管理 者 有 效 地 把 握 创 新 发 展 的 长 期 收 
益 与 短期 业绩 之 间 的 平衡 ,在 推进 大 数据 融合 的 同时 防范 和 控制 其 中 的 组 织 风险 ,并 审慎 
地 思考 和 重新 定义 组 织 内 外 部 边界 。 

换言之 ,对 企业 而 言 ,大 数据 实质 上 是 一 种 管理 思维 ,其 支点 在 于 业务 信息 资源 与 社 
交 媒体 的 融合 ,以 及 内 外 部 数据 的 融合 ,在 这 样 的 支点 上 反思 企业 的 组 织 形态 、 运 作 范 式 
和 价值 创造 模式 ,是 “大 数据 企业 ”的 真正 内 涵 所 在 。 


1.9 大 数据 应 用 案例 之 : 男女 嘉宾 (非诚勿扰 ) 率 手数 据 分 析 


《非诚勿扰 ) 是 由 中 国 大 陆 江 苏 卫 视 制 作 的 一 档 以 婚恋 交友 为 核心 的 社会 生活 服务 真 
人 秀 节目 ,于 2010 年 1 月 15 日 开播 ,节目 内 容 取 材 自 在 全 世界 范围 被 广泛 采用 的 英国 独 
立 电 视 台 的 两 性 联谊 节目 Take Me Out ,和 2008 一 2009 年 播 出 的 澳大利亚 节目 Taken 
Out 。 自 开播 以 来 (非诚勿扰 收视 率 在 中 国 大 陆 各 个 卫星 电视 节目 中 名 列 前 茅 , 且 收视 
率 日 渐 攀 升 。 由 江苏 电视 台新 闻 节 目 主持 人 和 孟 非 主持 , 现 另 由 黄 茵 分 析 点 评 ,和 孟 非 . 黄 硕 、 
刘烨 . 宁 财 神 .曾子 航 等 均 担 任 过 男 嘉宾 。《 非 诚 勿 扰 } 节 目 页 面 见 图 1. 10。 





图 1.10 江苏 卫视 制作 的 (非诚勿扰 ) 节 目 


该 节目 如 此 火爆 的 收视 率 和 普及 度 , 使 其 男女 嘉宾 备 受 关注 。 比 如 女 嘉 宾 身 份 问题 、 
男 嘉 宾 “ 托 儿 ”、 炒 作 等 问题 ,也 成 为 大 家 八卦 的 主题 。 截 止 到 2015 年 第 三 季度 ,一 共 做 了 
539 期 节目 ,至 少 1508 名 女 嘉宾 和 2382 名 男 嘉宾 参与 节目 ,成 功 促成 了 其 中 419 对 牵手 
男女 嘉宾 ! 其 牵手 成 功 页 面 如 图 1.11 所 示 。 
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较 熟 悉 的 观众 都 知道 女神 位 这 个 词 儿 。 通 过 节目 录制 现场 的 示意 图 ,最 中 间 11 一 14 
号 女 嘉宾 是 正 对 男 嘉宾 的 ,似乎 话题 和 曝光 率 都 颇 高 也 备 受 关注 。 那 么 她 们 既然 是 女神 
了 ,是 不 是 能 尽快 获得 自己 的 男 神 呢 ? 通过 对 牵手 男女 嘉宾 的 分 析 我 们 发 现 ,真正 的 牵手 
女神 却 在 20 号 位 置 左右 ! 一 共产 生 过 57 对 牵手 女 嘉宾 ,几乎 是 11 一 14 号 位 置 牵手 女 嘉 
宾 的 总 和 了 ! 我 们 也 在 分 析 , 是 不 是 站 到 了 女神 位 ,由 于 心理 上 的 变化 而 使 得 男 嘉宾 被 更 
多 灭 灯 呢 ? 

女神 位 置 大 数据 分 析 如 图 1. 12 所 示 。 
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图 1.12 女神 位 置 大 数据 分 析 


而 对 男 嘉 宾 我 们 发 现 , 最 容易 牵手 的 出 场 位 置 是 4 号 出 场 ! 而 1 号 往往 最 容易 当 炮 
灰 。 看 来 老话 说 得 好 一 一 万 事 开头 难 。 大 多 数 节 上 日 都 是 5 个 男 嘉宾 ,如 果 第 四 个 男 嘉宾 
没有 牵手 成 功 , 恺 怕 第 五 个 押宝 牵手 的 几率 也 不 会 特别 高 ,那么 各 位 白 富美 就 要 再 多 站 一 
期 节目 才能 获得 符合 自己 心意 的 高 富 帅 了 ! 是 不 是 这 种 心理 上 的 变化 也 使 得 4 号 男 嘉宾 
更 容易 成 功 呢 ! 如 果 你 参加 节目 能 够 在 此 位 置 出 场 可 要 好 好 把 握 了 哦 ,大 数据 告诉 你 牵 
手 概率 不 低 哦 ! 

那么 什么 样 的 男女 嘉宾 比较 受 欢迎 呢 ? 我 们 通过 男女 嘉宾 的 地 理 位 置 . 职 业 、 年 龄 和 
牵手 比率 几 个 维度 ,发 现 中 国 的 女 嘉 宾 和 欧美 的 男 嘉宾 比较 受 欢迎 ,其 中 自由 职业 ,教师 、 
企业 职员 比较 受 欢迎 ,私营 业主 身份 的 男 嘉 宾 则 最 受 欢迎 。 

牵手 分 析 : 中 国 的 女 嘉 宾 比 较 受 欢 迎 如 图 1. 13 所 示 。 


江苏 卫视 《非诚勿扰 ) 兴 手 分 析 Chinese "Take Me Out' Analyze 
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第 1 章 大 数据 技术 基本 概念 


牵手 分 析 : 欧美 的 男 嘉宾 比较 受 欢 迎 如 图 1. 14 所 示 。 


江苏 卫视 《 非 减 忽 扰 ) 座 手 分 析 Chinese "Take Me Out Analyze 






图 1. 14 欧美 的 男 嘉 宾 比 较 受 欢迎 


如 果 从 年 龄 分 布 来 看 , 男 嘉宾 普遍 比 女 嘉 宾 的 年 龄 要 大 。 牵 手 男 嘉宾 的 年 龄 段 集中 
在 24 一 31 岁 , 女 嘉宾 则 集中 在 22 一 25 岁 。 而 这 种 年 龄 分 布 于 当下 社会 新 组 建 家 庭 的 物 
质 需 求 也 比较 符合 。 可 见 来 的 男女 嘉宾 都 是 比较 务实 的 ,也 符合 了 节目 的 主题 一 一 非 诚 
勿 扰 。 
牵手 分 析 : 牵手 年 龄 分 析 如 图 1. 15 所 示 。 
江苏 卫视 《非诚勿扰 ?这 手 分 析 Chinese "Take Me Out' Analyze 
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图 1.15 牵手 年 龄 分 析 


二 


在 分 析 数 据 过 程 中 我 们 还 发 现 ,有 些 女 嘉宾 可 能 确实 眼 缘 不 佳 ,在 节目 停留 了 50 期 
以 上 也 没 能 牵手 成 功 。 而 眼 缘 不 佳 的 女 嘉 宾 集 中 分 布 在 25 岁 以 上 。 随 着 节目 的 改制 这 
种 现象 在 2014 年 以 后 逐步 减少 了 , 男 嘉宾 看 到 这 个 消息 应 该 拍手 称快 了 ! 

既然 作为 一 款 真 人 秀 节目 ,就 一 定 少不了 娱乐 的 成 分 。 根 据 数据 显示 ,刘烨 .曾子 航 、 
刘 恺 威 三 位 男 嘉宾 在 台 上 的 时 候 , 男 嘉宾 的 牵手 几率 比较 高 ,达到 了 44% 以 上 ,他 们 真正 
做 到 了 男 嘉宾 的 好 帮 衬 ! 而 于 正 老师 在 台 上 的 时 候 牵手 率 只 有 26%。 

其 实 还 有 很 多 主题 因为 缺少 有 力 的 数据 支持 ,所 以 没有 得 以 实现 。 比 如 ,心动 女生 画 
像 分 析 、 星 座 牵 手 几 率 、 旅 游 奖励 的 有 效 性 分 析 、 男 嘉宾 灭 灯 分 析 。 现 在 很 多 人 相亲 的 时 
候 ,其 实 自己 都 不 清楚 自己 到 底 想 要 找 一 个 什么 样 的 牵手 对 象 。 根 据 上 述 分 析 , 可 以 比较 
客观 地 知道 什么 样 的 男 嘉宾 更 适合 台 上 的 女 嘉 宾 。 可 以 想象 ,如 果 男 嘉宾 上 人 台 的 时 候 , 女 
嘉宾 手 里 也 有 一 个 数字 ,表示 根据 大 数据 计算 这 个 男 嘉宾 和 你 的 契合 度 是 多 少 , 那 会 是 什 
么 结果 。 或 许 大 数据 的 判断 比 女 嘉宾 更 懂 你 自己 呢 ! 


习题 与 思考 题 


一 、 选 择 题 
1. 大 数据 的 4V 特点 : Volume、Velocity、Variety、Veracity, 它 们 的 含义 分 别 是 ( Ws 
k yt js( » 
A. 价值 密度 低 B. 处 理 速度 快 
C. 数据 类 型 繁多 D. 数据 体 量 巨 大 
2. 大 数据 技术 的 战略 意义 不 在 于 掌握 庞大 的 数据 信息 ,而 在 于 对 这 些 含有 意义 的 数 
据 进行 ( )。 


A. 数据 信息 B. 专业 化 处 理 

C. 速度 处 理 D. 内 容 处 理 
3. 尿布 啤酒 案例 是 大 数据 分 析 的 ( 和 

A. A/B 测试 B. 分 类 

C. 关联 规则 挖掘 D. 数据 聚 类 
4. 当前 大 数据 技术 的 基础 是 由 ( ) 首 先 提出 的 。 

A. 微软 B. 百度 

C. Google D. 阿里 巴巴 


5. 根据 不 同 的 业务 需求 来 建立 数据 模型 ,抽取 最 有 意义 的 向 量 ,决定 选取 哪 种 方法 
的 数据 分 析 角 色 人 员 是 (。”)。 


A. 数据 管理 人 员 B. 数据 分 析 员 

C. 研究 科学 家 D. 软件 开发 工程 师 
6. 智慧 城市 的 构建 ,不 包含 ( 。”)。 

A. 数字 城市 B. 物 联网 

C. 联网 监控 D. 云 计算 


7. 大 数据 的 最 显著 特征 是 (。”)。 
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A. 数据 规模 大 B. 数据 类 型 多 样 

C. 数据 处 理 速 度 快 D. 数据 价值 密度 高 
8. 大 数据 时 代 , 数 据 使 用 的 关键 是 (。”)。 

A. 数据 收集 B. 数据 存储 

C. 数据 分 析 D. 数据 再 利用 
9. 支撑 大 数据 业务 的 基础 是 (。”)。 

A. 数据 科学 B. 数据 应 用 

C. 数据 硬件 D. 数据 人 才 


10. 大 数据 不 是 要 教 机 器 像 人 一 样 思考 。 相 反 , 它 是 (。 ”)。 
A. 把 数学 算法 运用 到 海量 的 数据 上 来 预测 事情 发 生 的 可 能 性 
B. 被 视 为 人 工 智能 的 一 部 分 
C. 被 视 为 一 种 机 器 学 习 


D. 预测 与 惩罚 
11. 大 数据 的 发 展 ,使 信息 技术 变革 的 重点 从 关注 技术 转向 关注 ( 。 )。 
A. 信息 B. 数字 C 文字 D. 方位 
“、 问 答题 


1. 简 述 大 数据 的 定义 和 特点 。 

2. 大 数据 的 社会 价值 体现 在 哪些 方面 ? 

3. 简 述 商业 大 数据 的 类 型 和 价值 挖掘 方法 。 
4. 基于 大 数据 分 析 的 商业 模式 创新 有 哪些 ? 
5， 如 何 成 为 “大 数据 企业 ?? 
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2.1 大 数据 处 理 的 基础 架构 


人 们 研究 大 数据 ,或 是 利用 大 数据 技术 ,其 战略 意义 并 不 在 于 是 谁 掌握 了 多 么 庞大 的 
大 数据 信息 ,而 是 在 于 谁 能 否 将 已 经 捕捉 到 的 那些 含有 一 定 意义 的 数据 通过 专业 化 处 理 ， 
将 其 变 成 一 种 数据 信息 资产 。 这 也 是 大 数据 分 析 的 真正 目的 。 

谁 都 不 能 否认 ,大 数据 既是 一 种 科技 ,也 是 一 种 资产 。 既 然 大 数据 是 一 种 资产 ,那么 ， 
如 何 利用 大 数据 这 种 资产 最 终 实现 一 利 , 才 是 运用 大 数据 的 关键 。 可 是 ,将 大 数据 加 工 成 
有 增值 的 数据 ,并 不 是 一 件 轻而易举 的 事情 。 

第 一 ,研究 大 数据 绝对 离 不 开 计算 机 的 云 计算 技术 。 

从 某 种 观点 上 看 ,没有 计算 机 的 云 计算 技术 ,就 不 会 有 大 数据 的 被 分 析 和 利用 。 大 数 
据 技术 跟 计 算 机 云 计 算 技 术 的 关系 就 像 是 一 只 手 的 手心 和 手背 ,是 密 不 可 分 的 。 因 为 分 
析 和 处 理 大 数据 是 无 法 用 某 一 台 计 算 机 来 完成 的 , 它 必须 采用 计算 机 的 分 布 式 架构 ,处 理 
大 数据 的 特色 就 是 在 于 对 那些 海量 性 的 数据 进行 分 布 式 的 数据 挖掘 ,但 这 种 分 布 式 的 大 
数据 挖掘 ,还 必须 依托 计算 机 的 分 布 式 处 理 , 因 为 计算 机 的 分 布 式 数据 库 或 是 云 存 储 以 及 
计算 机 中 的 虚拟 化 技术 ,可 以 支撑 起 对 大 数据 相关 技术 处 理 的 能 力 。 

第 二 ,计算 机 云 计算 技术 时 代 的 到 来 将 大 数据 处 理 变 为 了 现实 。 

大 数据 内 部 所 含有 的 资产 性 质 , 被 计算 机 云 计 算 技 术 得 到 了 实 实在 在 的 验证 ,由 此 而 
引出 来 的 效果 ,就 是 让 很 多 人 都 对 大 数据 有 了 更 多 的 关注 或 是 重视 。 可 用 大 数据 来 形容 
某 家 公司 所 创造 的 那些 大 量 非 结构 化 数据 和 半 结 构 化 数据 ,但 不 能 将 这 些 数据 下 载 到 关 
系 型 的 数据 库 中 进行 处 理 , 因 为 这 样 会 在 分 析 数 据 中 浪费 较 多 的 时 间或 金钱 。 大 数据 的 
分 析 必 须要 跟 计算 机 的 云 计算 技术 紧密 连 在 一 起 ,只 有 这 样 ,才能 将 大 数据 的 价值 变 成 资 
产 性 的 价值 ,并 将 大 数据 处 理 真正 变 成 一 种 现实 。 


2.2 云 计算 网 络 


云 计算 (Cloud Computing) 是 分 布 式 计算 技术 的 一 种 ,其 最 基本 的 概念 ,是 通过 网 络 
将 庞大 的 计算 处 理 程序 自动 分 拆 成 无 数 个 较 小 的 子 程序 ,再 交 由 多 部 服务 器 所 组 成 的 庞 
大 系统 经 搜寻 、 计 算 分 析 之 后 将 处 理 结果 回 传 给 用 户 。 以 前 的 大 规模 分 布 式 计算 技术 即 
为 “ 云 计算 ”的 概念 起 源 。 

云 计算 的 核心 思想 ,是 将 大 量 用 网 络 连 接 的 计算 资源 统一 管理 和 调度 ,构成 一 个 计算 
资源 池 向 用 户 按 需 服务 。 云 计算 的 一 个 核心 理念 就 是 通过 不 断 提高 “ 云 " 的 处 理 能 力 , 进 


上 


而 减少 用 户 终端 的 处 理 负 担 ,最 终 使 用 户 终端 简化 成 一 个 单纯 的 输入 输出 设备 ,并 能 按 需 
享受 “ 云 ”的 强大 计算 处 理 能 力 ! 


2.2.1 云 计 算 简 介 


1. 简介 

云 计算 是 网 格 计算 (Grid Computing) 、 分 布 式 计算 (Distributed Computing) 并 行 计 
算 (Parallel Computing) 效用 计算 (Utility Computing)、 网 络 存储 (Network Storage 
Technologies) .虚拟 化 (Virtualization) .负载 均衡 (Load Balance) 等 传统 计算 机 技术 和 网 
络 技 术 发 展 融合 的 产物 。 

它 旨 在 通过 网 络 把 多 个 成 本 相对 较 低 的 计算 实体 整合 成 一 个 具有 强大 计算 能 力 的 完 
美 系统 ,并 借助 SaaS、PaaS、IaaS、MSP 等 先进 的 商业 模式 把 这 强大 的 计算 能 力 分 布 到 终 
端 用 户 手中 。 云 计算 将 所 有 的 计算 资源 集中 起 来 ,并 由 软件 实现 自动 管理 ,无 须 人 为 参 
与 。 这 使 得 应 用 提供 者 无 须 为 烦琐 的 细节 而 烦恼 ,能够 更 加 专注 于 自己 的 业务 ,有 利于 创 
新 和 降低 成 本 。 

2. 定义 

1) 狭义 云 计 算 

提供 资源 的 网 络 被 称 为 * 云 >。“ 云 ?中 的 资源 在 使 用 者 看 来 是 可 以 无 限 扩展 的 ,并 且 
可 以 随时 获取 , 按 需 使 用 ,随时 扩展 , 按 使 用 付费 。 这 种 特性 经 常 被 称 为 像 水 电 一 样 使 用 
IT 基础 设施 。 

2) 广义 云 计算 

这 种 服务 可 以 是 IT 和 软件 ,互联 网 相关 的 ,也 可 以 是 任意 其 他 的 服务 。 这 种 资源 池 
称 为 * 云 "。“ 云 "是 一 些 可 以 自我 维护 和 管理 的 虚拟 计算 资源 ,通常 为 一 些 大 型 服务 器 集 
群 ,包括 计算 服务 器 ,存储 服务 器 、 宽 带 资 源 等 等 。 

云 计算 是 并 行 计算 ,分布 式 计算 和 网 格 计算 的 发 展 ,或 者 说 是 这 些 计 算 机 科学 概念 的 
商业 实现 。 云 计算 是 虚拟 化 ,效用 计算 、IaaS( 基 础 设施 即 服务 ) .PaaS( 平 台 即 服务 )、SaaS 
(软件 即 服务 ) 等 概念 混合 演进 并 跃升 的 结果 。 总 的 来 说 , 云 计算 可 以 算 作 是 网 格 计算 的 
一 个 商业 演化 版 。 


3. 原理 


云 计算 的 基本 原理 是 ,通过 使 计算 分 布 在 大 量 的 分 布 式 计算 机 上 ,而 非 本 地 计算 机 或 
远程 服务 器 中 ,企业 数据 中 心 的 运行 将 与 互联 网 更 相似 。 这 使 得 企业 能 够 将 资源 切换 到 
需要 的 应 用 上 ,根据 需求 访问 计算 机 和 存储 系统 。 

这 可 是 一 种 革命 性 的 举措 , 打 个 比方 ,这 就 好 比 是 从 古老 的 单 台 发 电机 模式 转向 了 电 
厂 集中 供电 的 模式 。 它 意味 着 计算 能 力也 可 以 作为 一 种 商品 进行 流通 ,就 像 煤 气 .水电 一 
样 , 取 用 方便 ,费用 低廉 。 其 最 大 的 不 同 在 于 , 它 是 通过 互联 网 进行 传输 的 。 

在 未 来 ,只 需要 一 台 笔记 本 或 者 一 个 手机 ,就 可 以 通过 网 络 服务 来 实现 我 们 需要 的 一 
切 , 甚 至 包括 超级 计算 这 样 的 任务 。 从 这 个 角度 而 言 ,最 终 用 户 才 是 云 计 算 的 真正 拥有 
者 。 云 计算 的 应 用 包含 这 样 的 一 种 思想 ,把 力量 联合 起 来 ,给 其 中 的 每 一 个 成 员 使 用 。 
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4. 特点 


1) 数据 安全 可 靠 

首先 , 云 计算 提供 了 最 可 靠 、 最 安全 的 数据 存储 中 心 ,用 户 不 用 再 担心 数据 丢失 ,病毒 
人 侵 等 麻烦 。 

多 人 觉得 数据 只 有 保存 在 自己 看 得 见 、 摸 得 着 的 电脑 里 才 最 安全 ,其 实 不 然 。 你 的 电 
脑 可 能 会 因为 自己 不 小 心 而 被 损坏 ,或 者 被 病毒 攻击 ,导致 硬盘 上 的 数据 无 法 恢复 ,而 有 
机 会 接触 你 的 电脑 的 不 法 之 徒 则 可 能 利用 各 种 机 会 窃取 你 的 数据 。 此 前 恤 动 一 时 的 “ 艳 
照 门 ?事件 据 报 道 不 也 是 因为 电脑 送 修 而 造成 个 人 数据 外 泄 的 吗 ? 

反之 , 当 你 的 文档 保存 在 类 似 Google Docs 的 网 络 服务 上 , 当 你 把 自己 的 照片 上 
传 到 类 似 Google Picasa Web 的 网 络 相册 里 ,你 就 再 也 不 用 担心 数据 的 丢失 或 损坏 。 
因为 在 “ 云 ? 的 另 一 端 ,有 全 世界 最 专业 的 团队 来 帮 你 管理 信息 ,有 全 世界 最 先进 的 
数据 中 心 来 帮 你 保存 数据 。 同 时 ,严格 的 权限 管理 策略 可 以 帮助 你 放心 地 与 你 指定 
的 人 共享 数据 。 这 样 ,你 不 用 花 钱 就 可 以 享受 到 最 好 、 最 安全 的 服务 ,甚至 比 在 银行 
里 存 钱 还 方便 。 

2) 客户 端 需求 低 

其 次 , 云 计 算 对 用 户 端的 设备 要 求 最 低 , 使 用 起 来 也 最 方便 。 

大 家 都 有 过 维护 个 人 电脑 上 种 类 繁多 的 应 用 软件 的 经 历 。 为 了 使 用 某 个 最 新 的 操作 
系统 ,或 使 用 某 个 软件 的 最 新 版 本 ,我 们 必须 不 断 升 级 自己 的 电脑 硬件 。 为 了 打开 朋友 发 
来 的 某 种 格式 的 文档 ,我 们 不 得 不 疯狂 寻找 并 下 载 某 个 应 用 软件 。 为 了 防止 在 下 载 时 引 
和 人 入 病毒 ,我 们 不 得 不 反复 安装 杀毒 和 防火 墙 软件 。 所 有 这 些 麻烦 事 加 在 一 起 ,对 于 一 个 刚 
刚 接触 计算 机 、 刚 刚 接触 网 络 的 新 手 来 说 不 审 一 场 疆 梦 ! 

如 果 你 再 也 无 法 忍受 这 样 的 电脑 使 用 体验 , 云 计算 也 许 是 你 的 最 好 选择 。 你 只 要 有 
一 台 可 以 上 网 的 电脑 ,有 一 个 你 喜欢 的 浏览 器 ,你 要 做 的 就 是 在 浏览 器 中 输入 URL ,然后 
尽情 享受 云 计 算 带 给 你 的 无 限 乐趣 。 

你 可 以 在 浏览 器 中 直接 编辑 存储 在 “ 云 ” 的 另 一 端的 文档 ,你 可 以 随时 与 朋友 分 享 信 
息 ,再 也 不 用 担心 你 的 软件 是 否 是 最 新 版 本 ,再 也 不 用 为 软件 或 文档 染 上 病毒 而 发 愁 。 因 
为 在 “ 云 ”的 另 一 端 ,有 专业 的 IT 人 员 帮 你 维护 硬件 , 帮 你 安装 和 升级 软件 , 帮 你 防范 病 
毒 和 各 类 网 络 攻击 , 帮 你 做 你 以 前 在 个 人 电脑 上 所 做 的 一 切 。 

3) 轻松 共享 数据 

此 外 , 云 计算 可 以 轻松 实现 不 同 设备 间 的 数据 与 应 用 共享 。 

大 家 不 妨 回想 一 下 ,你 自己 的 联系 人 信息 是 如 何 保 存 的 。 一 个 最 常见 的 情形 是 ,你 的 
手机 里 存储 了 几 百 个 联系 人 的 电话 号 码 ,你 的 个 人 电脑 或 笔记 本 电脑 里 则 存储 了 几 百 个 
电子 邮件 地 址 。 为 了 方便 在 出 差 时 发 邮件 ,你 不 得 不 在 个 人 电脑 和 笔记 本 电脑 之 间 定期 
同步 联系 人 信息 。 买 了 新 的 手机 后 ,你 不 得 不 在 旧 手机 和 新 手机 之 间 同 步 电 话 号 码 。 对 
了 ,还 有 你 的 PDA 以 及 你 办 公 室 里 的 电脑 。 

考虑 到 不 同 设备 的 数据 同步 方法 种 类 繁多 ,操作 复杂 ,要 在 这 许多 不 同 的 设备 之 间 保 
存 和 维护 最 新 的 一 份 联系 人 信息 ,你 必须 为 此 付出 难以 计数 的 时 间 和 精力 。 这 时 ,你 需要 


人 


用 云 计算 来 让 一 切 都 变 得 更 简单 。 在 云 计算 的 网 络 应 用 模式 中 ,数据 只 有 一 份 ,保存 在 
“ 云 ” 的 另 一 端 ,你 的 所 有 电子 设备 只 需要 连接 互联 网 ,就 可 以 同时 访问 和 使 用 同一 份 
数据 。 

仍然 以 联系 人 信息 的 管理 为 例 , 当 你 使 用 网 络 服务 来 管理 所 有 联系 人 的 信息 后 ,你 可 
以 在 任何 地 方 用 任何 一 台电 脑 找 到 某 个 朋友 的 电子 邮件 地 址 ,可 以 在 任何 一 部 手机 上 直 
接 拨 通 朋友 的 电话 号 码 , 也 可 以 把 某 个 联系 人 的 电子 名 片 快速 分 享 给 好 几 个 朋友 。 当 然 ， 
这 一 切 都 是 在 严格 的 安全 管理 机 制 下 进行 的 ,只 有 对 数据 拥有 访问 权限 的 人 , 才 可 以 使 用 
或 与 他 人 分 享 这 份 数据 。 

4) 可 能 无 限 多 

最 后 , 云 计算 为 我 们 使 用 网 络 提供 了 几乎 无 限 多 的 可 能 ,为 存储 和 管理 数据 提供 了 几 
平 无 限 多 的 空间 ,也 为 我 们 完成 各 类 应 用 提供 了 几乎 无 限 强 大 的 计算 能 力 。 想 象 一 下 , 当 
你 驾车 出 游 的 时 候 ,只 要 用 手机 连 入 网 络 , 就 可 以 直接 看 到 自己 所 在 地 区 的 卫星 地 图 和 实 
时 的 交通 状况 ,可 以 快速 查询 自己 预 设 的 行车 路 线 , 可 以 请 网 络 上 的 好 友 推 荐 附近 最 好 的 
景区 和 和 餐馆 ,可 以 快速 预订 目的 地 的 宾馆 ,还 可 以 把 自己 刚刚 拍摄 的 照片 或 视频 剪辑 分 享 
给 远方 的 亲友 …… 

离开 了 云 计算 ,单单 使 用 个 人 电脑 或 手机 上 的 客户 端 应 用 ,我 们 是 无 法 享受 这 些 便捷 
服务 的 。 个 人 电脑 或 其 他 电子 设备 不 可 能 提供 无 限量 的 存储 空间 和 计算 能 力 , 但 在 “ 云 ” 
的 另 一 端 , 由 数 千 台 、 数 万 台 甚至 更 多 服务 器 组 成 的 庞大 的 集群 却 可 以 轻易 地 做 到 这 一 
点 。 个 人 和 单个 设备 的 能 力 是 有 限 的 ,但 云 计 算 的 潜力 却 几乎 是 无 限 的 。 当 你 把 最 常用 
的 数据 和 最 重要 的 功能 都 放 在 “ 云 ? 上 时 ,我 们 相信 ,你 对 电脑 ,应 用 软件 乃至 网 络 的 认识 
会 有 翻天 覆 地 的 变化 ,你 的 生活 也 会 因此 而 改变 。 

互联 网 的 精神 实质 是 自由 、 平 等 和 分 享 。 作 为 一 种 最 能 体现 互联 网 精神 的 计算 模型 ， 
云 计算 必 将 在 不 远 的 将 来 展示 出 强大 的 生命 力 , 并 将 从 多 个 方面 改变 我 们 的 工作 和 生活 。 
无 论 是 普通 网 络 用 户 ,还 是 企业 员工 ;无 论 是 IT 管理 者 ,还 是 软件 开发 人 员 ,他 们 都 能 亲 
身体 验 到 这 种 改变 。 

5) 营销 

通过 网 络 ,把 多 个 成 本 较 低 的 计算 实体 ,整合 成 一 个 具有 强大 营销 能 力 的 完美 系统 。 
核心 理念 就 是 通过 不 断 提高 “ 云 ”的 覆盖 能 力 , 以 及 “ 云 "之 间 的 逻辑 计算 能 力 ,从 而 达到 系 
统 营 销 的 结果 , 它 可 以 减少 用 户 的 经 济 负 担 , 最 终 使 用 户 简化 到 只 要 在 家 里 ,通过 一 台 终 
端 ,就 可 以 得 到 近乎 无 限 数 量 的 优质 客户 ,享受 “营销 云 " 带 来 的 强大 经 济 利益 。 

狭义 云 营销 : 帮 客 户 销售 产品 ,快速 建立 全 国营 销 渠道 ,获取 经 济 利益 。 

广义 云 营销 : 树立 企业 品牌 形象 ,获取 更 多 的 社会 资源 等 。 


2.2.2 云 计 算 系 统 的 体系 结构 
1. 云 计 算 逻 辑 结构 
云 计算 平台 是 一 个 强大 的 “ 云 " 网 络 , 连 接 了 大 量 并 发 的 网 络 计算 和 服务 ,可 利用 虚拟 


化 技术 扩展 每 一 个 服务 器 的 能 力 ,将 各 自 的 资源 通过 云 计 算 平 台 结合 起 来 ,提供 超级 计算 
和 存储 能 力 。 通 用 的 云 计算 逻 辑 结构 如 图 2. 1 所 示 。 
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2.1 云 计算 逻辑 结构 
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1) 云 用 户 端 

提供 云 用 户 请 求 服务 的 交互 界面 ,也 是 用 户 使 用 云 的 入 口 ,用 户 通 过 Web 浏览 器 可 
以 注册 、 登 录 及 定制 服务 、 配 置 和 管理 用 户 。 打 开 应 用 实例 ,就 像 在 本 地 操作 桌面 系统 
一 样 。 

2) 服务 目录 

云 用 户 在 取得 相应 权限 (付费 或 其 他 限制 ) 后 可 以 选择 或 定制 的 服务 列表 ,也 可 以 对 
已 有 服务 进行 退 订 操作 ,在 云 用 户 端 界 面 生成 相应 的 图 标 或 列表 的 形式 展示 相关 的 服务 。 

3) 管理 系统 和 部 署 工 具 

提供 管理 和 服务 ,能 管理 云 用 户 ,能 对 用 户 授 权 、 认 证 .登录 进行 管理 ,并 可 以 管理 可 
用 计算 资源 和 服务 ,接收 用 户 发 送 的 请 求 ,根据 用 户 请求 并 转发 到 相应 的 相应 程序 ,调度 
资源 智能 地 部 署 资源 和 应 用 ,动态 地 部 署 .配置 和 回收 资源 。 

4) 监控 

监控 和 计量 云 系 统 资源 的 使 用 情况 ,以 便 做 出 迅速 反应 ,完成 结 点 同步 配置 .负载 均 
衡 配 置 和 资源 监控 ,确保 资源 能 顺利 分 配给 合适 的 用 户 。 

5) 服务 器 集群 

虚拟 的 或 物理 的 服务 器 ,由 管理 系统 管理 ,负责 高 并 发 量 的 用 户 请 求 处 理 , 大 运算 量 
计算 处 理 、 用 户 Web 应 用 服务 , 云 数 据 存储 时 采用 相应 数据 切割 算法 采用 并 行 方式 上 传 
和 下 载 大 容量 数据 。 

用 户 可 通过 云 用 户 端 从 列表 中 选择 所 需 的 服务 ,其 请 求 通过 管理 系统 调度 相应 的 资 
源 ,并 通过 部 署 工 具 分 发 请 求 .配置 Web 应 用 。 

2 云 计算 的 主要 服务 形式 

目前 , 云 计算 的 主要 服务 形式 有 IaaS(Software as a Service, 基 础 设施 即 服务 )、PaaS 
(Platform as a Service ,平台 即 服务 ) .SaaS(Infrastructure as a Service, 软 件 即 服务 ) ,如 
图 2.2 所 示 。 

1) 软件 即 服务 (SaaS) 

SaaS 服务 提供 商 将 应 用 软件 统一 部 署 在 自己 的 服务 器 上 ,用 户 根据 需求 通过 互联 网 
向 厂商 订购 应 用 软件 服务 ,服务 提供 商 根据 客户 所 定 软件 的 数量 .时 间 的 长 短 等 因素 收 
费 ,并 且 通 过 浏览 器 向 客户 提供 软件 的 模式 。 

这 种 服务 模式 的 优势 是 ,由 服务 提供 商 维护 和 管理 软件 .提供 软件 运行 的 硬件 设施 ， 
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图 2.2 云 计算 的 主要 服务 形式 


用 户 只 需 拥有 能 够 接 入 互联 网 的 终端 , 即 可 随时 随地 使 用 软件 。 这 种 模式 下 ,客户 不 再 像 
传统 模式 那样 资金 在 硬件 .软件 、 维 护 人 员 方 面 花费 大 量 , 只 需要 支出 一 定 的 租赁 服务 费 
用 ,通过 互联 网 就 可 以 享受 到 相应 的 硬件 .软件 和 维护 服务 ,这 是 网 络 应 用 最 具 效益 的 营 
运 模式 。 对 于 小 型 企业 来 说 ,SaaS 是 采用 先进 技术 的 最 好 途径 。 

以 企业 管理 软件 来 说 ,SaaS 模式 的 云 计算 ERP 可 以 让 客户 根据 并 发 用 户 数量 、 所 用 
功能 多 少 ,数据 存储 容量 ,使 用 时 间 长 短 等 因素 不 同 组 合 按 需 支 付 服务 费用 , 既 不 用 支付 
软件 许可 费用 ,也 不 需要 支付 采购 服务 器 等 硬件 设备 费用 ,也 不 需要 支付 购买 操作 系统 、 
数据 库 等 平台 软件 费用 ,也 不 用 承担 软件 项 目 定制 .开发 ,实施 费用 ,也 不 需要 承担 IT 维 
护 部 门 开支 费用 。 实 际 上 , 云 计算 ERP 正 是 继承 了 开源 ERP 免 许 可 费用 只 收服 务 费 用 
的 最 重要 特征 ,是 突出 了 服务 的 ERP 产品 。 

目前 ,Salesforce. com 是 提供 这 类 服务 最 有 名 的 公司 ,Google Doc、Google Apps 和 
Zoho Office 也 属于 这 类 服务 。 

2) 平台 即 服务 (PaaS) 

把 开发 环境 作为 一 种 服务 来 提供 。 这 是 一 种 分 布 式 平台 服务 ,厂商 提供 开发 环境 、 服 
务 器 平台 \ 硬 件 资源 等 服务 给 客户 ,用 户 在 其 平台 基础 上 定制 开发 自己 的 应 用 程序 并 通过 
其 服务 器 和 互联 网 传递 给 其 他 客户 。PaaS 能 够 给 企业 或 个 人 提供 研发 的 中 间 件 平台 , 提 
供应 用 程序 开发 ,数据库 .应 用 服务 器 .试验 ,托管 及 应 用 服务 。 

Google App Engine,Salesforce 的 force. com 平台 , 八 百 客 的 800APP 是 PaaS 的 代 
表 产 品 。 以 Google App Engine 为 例 , 它 是 一 个 由 Python 应 用 服务 器 群 .BigTable 数据 
库 及 GFS 组 成 的 平台 ,为 开发 者 提供 一 体 化 主机 服务 器 及 可 自动 升级 的 在 线 应 用 服务 。 
用 户 编写 应 用 程序 并 在 Google 的 基础 架构 上 运行 就 可 以 为 互联 网 用 户 提供 服务 ,Google 
提供 应 用 运行 及 维护 所 需要 的 平台 资源 。 
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3) 基础 设施 服务 (IaaS) 
IaaS 即 把 厂商 的 由 多 台 服 务 器 组 成 的 “云端 ”基础 设施 作为 计量 服务 提供 给 客户 。 
它 将 内 存 .1/O 设备 ,存储 和 计算 能 力 整 合成 一 个 虚拟 的 资源 池 , 为 整个 业界 提供 所 需要 
的 存储 资源 和 虚拟 化 服务 器 等 服务 。 这 是 一 种 托管 型 硬件 方式 ,用 户 付 费 使 用 厂商 的 硬 
件 设 施 。 例 如 Amazon Web 服务 (AWS) IBM 的 BlueCloud 等 均 是 将 基础 设施 作为 服务 
出 租 。 
IaaS 的 优点 是 用 户 只 需 低 成 本 硬件 , 按 需 租用 相应 计算 能 力 和 存储 能 力 ,大 大 降低 
了 用 户 在 硬件 上 的 开销 。 
3. 云 计算 应 用 
目前 ,以 Google 云 的 应 用 最 具 代 表 性 ,例如 GoogleDocs、GoogleApps、Googlesites 
以 及 云 计算 应 用 平台 GoogleApp Engine。 
1) GoogleDocs 
GoogleDocs 是 最 早 推出 的 云 计算 应 用 ,是 软件 即 服务 思想 的 典型 应 用 。 它 是 类 似 于 
微软 的 Office 的 在 线 办 公 软 件 。 它 可 以 处 理 和 搜索 文档 表格 ,幻灯 片 ,并 可 以 通过 网 络 
和 他 人 分 享 并 设置 共享 权限 。Google 文件 是 基于 网 络 的 文字 处 理 和 电子 表格 程序 ,可 提 
高 协作 效率 ,多 名 用 户 可 同时 在 线 更 改 文件 ,并 可 以 实时 看 到 其 他 成 员 所 做 的 编辑 操作 。 
一 台 接 入 互联 网 的 计算 机 和 可 以 使 用 Google 文件 的 标准 浏览 器 即 可 在 线 
创建 和 管理 .实时 协作 .权限 管理 .共享 .搜索 能 力 、 修 订 历史 记录 功能 ,以 及 随时 随地 访问 
的 特性 ,大 大 提高 了 文件 操作 的 共享 和 协同 能 力 。 
2) GoogleAPPs 
GoogleAPPs 是 Google 企业 应 用 套件 ,使 用 户 能 够 处 理 日 渐 庞 大 的 信息 量 , 随 时 随 
地 保持 联系 ,并 可 与 其 他 同事 .客户 和 合作 伙伴 进行 沟通 .共享 和 协作 。 它 集成 了 Cmail、 
GoogleTalk .Google 日 历 .GoogleDocs 以 及 最 新 推出 的 云 应 用 GoogleSites、API 扩展 以 
及 一 些 管理 功能 ,包含 了 通信 ,协作 与 发 布 . 管 理 服 务 三 方面 的 应 用 ,并 且 拥 有 着 云 计算 的 
特性 ,能 够 更 好 地 实现 随时 随地 协同 共享 。 另外 , 它 还 具有 低 成 本 的 优势 和 托管 的 便捷 
人 性, 用户 无 须 自己 维护 和 管理 搭建 的 协同 共享 平台 
3) Googlesites 
oa Google 最 新 发 布 的 云 计算 应 用 ,作为 GoogleAPPs 的 一 个 组 件 出 现 
一 个 侧重 于 团队 协作 的 网 站 编辑 工具 ,可 利用 它 创建 一 个 各 种 关 型 的 团队 网 站 ,通过 
ee 可 将 所 有 类 型 的 文件 包括 文档 ,视频 ,相片 .日 历 及 附件 等 与 好 友 、 团 队 或 整 
个 网 络 分 享 。 
4) Google AppEngine 
Google AppEngine 是 Google 在 2008 年 4 月 发 布 的 一 个 平台 ,使 用 户 可 以 在 Google 
的 基础 架构 上 开发 和 部 署 运 行 自 己 的 应 用 程序 。 目 前 ,Google AppEngine 支持 Python 
语言 和 Java 语言 ,每 个 Google AppEngine 应 用 程序 可 以 使 用 达到 500MB 的 持久 存储 空 
间 及 可 支持 每 月 500 万 综合 浏览 量 的 带宽 和 CPU。 并 且 ,Google AppEngine 应 用 程序 
易于 构建 和 维护 ,并 可 根据 用 户 的 访问 量 和 数据 存储 需要 的 增长 轻松 扩展 。 
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同时 ,用 户 的 应 用 可 以 和 Google 的 应 用 程序 集成 ,Google AppEngine 还 推出 了 软件 
开发 套件 (SDK) ,包括 可 以 在 用 户 本 地 计算 机 上 模拟 所 有 Google AppEngine 服务 的 网 
络 服务 器 应 用 程序 。 

4. 云 计 算 技术 体系 结构 

由 于 云 计算 分 为 IaaS、PaaS 和 SaaS 三 种 类 型 ,不 同 的 厂家 又 提供 了 不 同 的 解决 方 
案 , 目 前 还 没有 一 个 统一 的 技术 体系 结构 ;综合 不 同 厂 家 的 方案 ,给 出 一 个 供 商 椎 的 云 
计算 技术 体系 结构 。 这 个 体系 结构 如 图 2. 3 所 示 , 它 概括 了 不 同 解决 方案 的 主要 
特征 。 





2.3 云 计算 体系 结构 


云 计算 技术 体系 结构 分 为 4 层 : 物理 资源 层 、. 资 源 池 层 、 管 理 中 间 件 层 和 SOA 构 
建 层 。 

(1) 物理 资源 层 包 括 计 算 机 、 存 储 器 、 网 络 设施 ,数据库 和 软件 等 ; 

(2) 资源 池 层 是 将 大 量 相同 类 型 的 资源 构成 同 构 或 接近 同 构 的 资源 池 , 如 计算 资源 
池 ,数据 资源 池 等 。 构 建 资源 池 更 多 是 物理 资源 的 集成 和 管理 工作 ,例如 研究 在 一 个 标准 
集装箱 的 空间 如 何 装 下 2000 个 服务 器 .解决 散热 和 故障 结 点 替换 的 问题 并 降低 能 耗 。 

(3) 管理 中 间 件 层 负责 对 云 计 算 的 资源 进行 管理 ,并 对 众多 应 用 任务 进行 调度 ,使 资 
源 能 够 高 效 .安全 地 为 应 用 提供 服务 ， 

(4) SOA 构建 层 将 云 计算 能 力 封 装 成 标准 的 Web Services 服务 ,并 纳入 到 SOA 体 
系 进行 管理 和 使 用 ,包括 服务 注册 ,查找 .访问 和 构建 服务 工作 流 等 。 管 理 中 间 件 和 资源 
池 层 是 云 计算 技术 的 最 关键 部 分 ,SOA 构建 层 的 功能 更 多 依靠 外 部 设施 提供 。 
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5. 云 计算 简化 实现 机 制 
基于 上 述 体系 结构 ,以 TaaS 云 计 算 为 例 , 简 述 云 计 算 的 实现 机 制 ,如 图 2.4 所 示 。 

















计算 /存储 资源 
2.4 云 计算 简化 实现 机 制 


(1) 用 户 交互 接口 : 向 应 用 以 Web Services 方式 提供 访问 接口 ,获取 用 户 需 求 。 

(2) 服务 目录 : 是 用 户 可 以 访问 的 服务 清单 。 系 统管 理 模块 负责 管理 和 分 配 所 有 可 
用 的 资源 ,其 核心 是 负载 均衡 。 配 置 工具 负责 在 分 配 的 结 点 上 准备 任务 运行 环境 。 

(3) 监视 统计 模块 : 负责 监视 结 点 的 运行 状态 ,并 完成 用 户 使 用 结 点 情况 的 统计 。 
执行 过 程 并 不 复杂 。 

(4) 用 户 交互 接口 : 允许 用 户 从 目录 中 选取 并 调用 一 个 服务 。 该 请 求 传递 给 系统 管 
理 模 块 后 , 它 将 为 用 户 分 配 恰当 的 资源 ,然后 调用 配置 工具 来 为 用 户 准备 运行 环境 。 
2.2.3 云 计算 服务 层次 

1. 云 计 算 服 务 层次 

在 云 计算 中 ,根据 其 服务 集合 所 提供 的 服务 类 型 ,整个 云 计算 服务 集合 被 划分 成 4 个 
层次 : 应 用 层 , 平 台 层 、 基 础 设施 层 和 虚拟 化 层 。 这 4 个 层次 每 一 层 都 对 应 着 一 个 子 服务 
集合 ,为 云 计算 服务 层次 模型 如 图 2. 5 所 示 。 

云 计 算 的 服务 层次 是 根据 服务 类 型 即 服 务 集合 来 划分 ,与 大 家 熟悉 的 计算 机 网 络 体 
系 结构 中 层次 的 划分 不 同 。 在 计算 机 网 络 中 每 个 层次 都 实现 一 定 的 功能 , 层 与 层 之 间 有 
一 定 关联 。 而 云 计算 体系 结构 中 的 层次 是 可 以 分 割 的 , 即 某 一 层次 可 以 单独 完成 一 项 用 
户 的 请 求 而 不 需要 其 他 层次 为 其 提供 必要 的 服务 和 支持 。 

在 云 计算 服务 体系 结构 中 各 层次 与 相关 云 产 品 对 应 。 

(1) 应 用 层 对 应 SaaS 软件 即 服 务 , 如 GoogleApps、SoftWare 十 Services; 

(2) 平台 层 对 应 PaaS 平台 即 服务 ,如 IBM IT Factory、 Google APPEngine、 
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云 计 算 四 层 模型 云 服务 集合 中 的 子 服务 
图 2.5 云 计算 服务 层次 模型 


Force. com; 

(3) 基础 设施 层 对 应 IaaS 基础 设施 即 服务 ,如 Amazo Ec2、IBM Blue Cloud、Sun 
Grid; 

(4) 虚拟 化 层 对 应 硬件 即 服务 ,结合 Paas 提供 硬件 服务 ,包括 服务 器 集群 及 硬件 检 
测 等 服务 。 

大 部 分 的 云 计算 基础 构架 是 由 通过 数据 中 心 传送 的 可 信赖 的 服务 和 创建 在 服务 器 上 
的 不 同 层次 的 虚拟 化 技术 组 成 的 。 人 们 可 以 在 任何 有 提供 网 络 基础 设施 的 地 方 使 用 这 些 
服务 。“ 云 ”通常 表现 为 对 所 有 用 户 的 计算 需求 的 单一 访问 点 。 人 们 通常 希望 商业 化 的 产 
品 能 够 满足 服务 质量 (QoS) 的 要 求 ,并 且 一 般 情 况 下 要 提供 服务 水 平 协议 。 开 放 标 准 对 
于 云 计算 的 发 展 是 至 关 重 要 的 ,并 且 开源 软件 已 经 为 众多 的 云 计 算 实例 提供 了 基础 ,如 
图 2.6 所 示 。 


PAAS 





ee ee [| 污 /gd 
四 网络 设 备 ”服务 器 数据 库 机 房 环境 IT 资产 
图 2.6 云 计算 服务 层次 
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2. 云 计算 产业 

云 计算 的 产业 三 级 分 层 : 云 软件 \ 云 平台 \ 云 设备 。 

1) 上 层 分 级 ; 云 软件 Software as a Service(SaaS) 

打破 以 往 大 厂 垄 断 的 局 面 ,所 有 人 都 可 以 在 上 面 自由 挥 酒 创意 ,提供 各 式 各 样 的 软件 
服务 。 参 与 者 : 世界 各 地 的 软件 开发 者 。 

2) 中 层 分 级 : 云 平 台 Platform as a Service(PaaS) 

打造 程序 开发 平台 与 操作 系统 平台 ,让 开发 人 员 可 以 通过 网 络 撰写 程序 与 服务 ,一般 
消费 者 也 可 以 在 上 面 运 行程 序 。 参 与 者 : Google 微软. 苹果 .Yahool。 

3) 下 层 分 级 : 云 设备 Infrastructure as a Service(JIaaS) 

将 基础 设备 (如 IT 系统 ,数据 库 等 ) 集 成 起 来 , 像 旅馆 一 样 , 分 隔 成 不 同 的 房间 供 企 
业 租用 。 参 与 者 : 英 业 达 、IBM ,戴尔 .惠普 .亚马逊 。 


2.2.4 云 计 算 技 术 层 次 


云 计算 技术 层次 和 云 计算 服务 层次 不 是 一 个 概念 ,后 者 从 服务 的 角度 来 划分 云 的 层 
次 ,主要 突出 了 云 服务 能 给 用 户 带 来 什么 。 而 云 计 算 的 技术 层次 主要 从 系统 属性 和 设计 
思想 角度 来 说 明 云 ,是 对 软 硬 件 资源 在 云 计 算 技术 中 所 充当 角色 的 说 明 。 从 云 计 算 技术 
角度 来 分 , 云 计算 由 4 部 分 构成 : 物理 资源 .虚拟 化 资源 .中 间 件 管理 部 分 和 服务 接口 ,如 
图 2.7 所 示 。 









































站 | 服务 接口 (服务 接口 、 服 务 注册 、 服务 查 找 、 服务 访问 ) | 
Pp 
计 
算 上- 服 务 管理 中 间 件 (用 户 管理 、 资 源 管理 、 安 全 管理 、 映 像 管理 ) 
技 
术 
层 上 | 肯 化 资源 (计算 资源 池 、 网 络 资源 池 、 存 依 资 源 池 、 air] 
次 
| 物资 源 (服务 器 集 酵 、 网 络 设备 、 存 久 设 备 、 到 据 库 ) | 
图 2.7 云 计算 技术 层次 
1. 服务 接口 


统一 了 在 云 计算 时 代 使 用 计算 机 的 各 种 规范 、 云 计算 服务 的 各 种 标准 等 ,用 户 端 与 去 
端 交 互 操作 的 入 口 ,可 以 完成 用 户 或 服务 注册 ,对 服务 的 定制 和 使 用 。 

2. 服务 管理 中 间 件 

在 云 计算 技术 中 ,中 间 件 位 于 服务 和 服务 器 集群 之 间 ,提供 管理 和 服务 即 云 计算 体系 
结构 中 的 管理 系统 。 对 标识 、 认 证 ,授权 、 目 录 , 安 全 性 等 服务 进行 标准 化 和 操作 ,为 应 用 
提供 统一 的 标准 化 程序 接口 和 协议 ,隐藏 底层 硬件 .操作 系 统 和 网 络 的 异 构 性 ,统一 管理 
网 络 资源 。 其 用 户 管理 包括 用 户 身 份 验证 、 用 户 许可 、 用 户 定制 管理 ;资源 管理 包括 负载 
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均衡 .资源 监控 ,故障 检测 等 ;安全 管理 包括 身份 验证 ,访问 授权 、 安 全 审计 ,综合 防护 等 ; 
映像 管理 包括 映像 创建 .部署 .管理 等 。 

3. 虚拟 化 资源 

虚拟 化 资源 指 一 些 可 以 实现 一 定 操 作 具 有 一 定 功能 ,但 其 本 身 是 虚拟 而 不 是 真实 的 
资源 ,如 计算 池 ,存储 池 和 网 络 池 数据库 资源 等 ,通过 软件 技术 来 实现 相关 的 虚拟 化 功能 
包括 虚拟 环境 、 虚 拟 系统 、 虚 拟 平台 。 

4. 物理 资源 

物理 资源 主要 指 能 支持 计算 机 正常 运行 的 一 些 硬 件 设备 及 技术 ,可 以 是 价格 低廉 的 
PC, 也 可 以 是 价格 昂贵 的 服务 器 及 磁盘 阵列 等 设备 ,可 以 通过 现 有 网 络 技 术 和 并 行 技术 、 
分 布 式 技术 将 分 散 的 计算 机 组 成 一 个 能 提供 超 强 功能 的 集群 用 于 计算 和 存储 等 云 计算 操 
作 。 在 云 计算 时 代 , 本 地 计算 机 可 能 不 再 像 传 统计 算 机 那样 需要 空间 足够 的 硬盘 .大 功率 
的 处 理 器 和 大 容量 的 内 存 , 只 需要 一 些 必要 的 硬件 设备 ,如 网 络 设 备 和 基本 的 输入 输出 设 
备 等 。 


2.2.5 云 计算 的 核心 技术 


云 计 算 系 统 运用 了 许多 技术 ,其 中 以 编程 模型 ,数据 管理 技术 ,数据 存储 技术 .虚拟 化 
技术 ` 云 计 算 平台 管理 技术 最 为 关键 。 
1. 编程 模型 (MapReduce) 


MapReduce 是 Google 开发 的 Java、Python、C++ 编程 工具 ,用 于 大 规模 数据 集 (大 于 
1TB) 的 并 行 运算 ,也 是 云 计算 的 核心 技术 ,一 种 分 布 式 运算 技术 ,也 是 简化 的 分 布 式 编程 
模式 ,适合 用 来 处 理 大 量 数据 的 分 布 式 运算 ,用 于 解决 问题 的 程序 开发 模型 ,也 是 开发 人 
员 拆 解 问 题 的 方法 。 

MapReduce 是 一 种 简化 的 分 布 式 编程 模型 和 高 效 的 任务 调度 模型 ,严格 的 编程 模型 
使 云 计算 环境 下 的 编程 十 分 简单 。MapReduce 模式 的 思想 是 将 要 执行 的 问题 分 解 成 
Map( 上 映射) 和 Reduce( 化 简 ) 的 方式 , 先 通过 Map 程序 将 数据 切割 成 不 相关 的 区 块 ,分 配 
(调度 ) 给 大 量 计算 机 处 理 , 达 到 分 布 式 运算 的 效果 ,再 通过 Reduce 程序 将 结果 汇总 
输出 。 

2. 海量 数据 分 布 存储 技术 (GFS) 


云 计算 系统 由 大 量 服务 器 组 成 ,同时 为 大 量 用 户 服务 ,因此 云 计算 系统 采用 分 布 式 存 
储 的 方式 存储 数据 ,用 元 余 存 储 的 方式 保证 数据 的 可 靠 性 。 云 计算 系统 中 广泛 使 用 的 数 
据 存储 系统 是 Google 的 GFS 和 Hadoop 团队 开发 的 GFS 的 开源 实现 HDFS。 

GFS 即 Google 文件 系统 (Google File System) ,是 一 个 可 扩展 的 分 布 式 文件 系统 ,用 
于 大 型 的 ,分 布 式 的 、 对 大量 数据 进行 访问 的 应 用 。GFS 的 设计 思想 不 同 于 传统 的 文件 
系统 ,是 针对 大 规模 数据 处 理 和 Google 应 用 特性 而 设计 的 。 它 运行 于 廉价 的 普通 硬件 
上 ,但 可 以 提供 容错 功能 。 它 可 以 给 大 量 的 用 户 提供 总 体 性 能 较 高 的 服务 。 

一 个 GFS 集群 由 一 个 主 服务 器 (master) 和 大 量 的 块 服务 器 (chunk server) 构 成 ,并 
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被 许多 客户 (Client) 访 问 。 主 服务 器 存储 文件 系统 所 有 的 元 数据 ,包括 名 字 空 间 、 访 问 控 
制 信息 、 从 文件 到 块 的 映射 以 及 块 的 当前 位 置 。 它 也 控制 系统 范围 的 活动 ,如 抉 租约 
(lease) 管 理 、 扳 儿 块 的 垃圾 收集 、 块 服务 器 间 的 块 迁移 。 

主 服 务 器 定期 通过 Heart Beat 消息 与 每 一 个 块 服务 器 通信 ,给 块 服务 器 传递 指令 并 
收集 它 的 状态 。GFS 中 的 文件 被 切 分 为 64MB 的 块 并 以 元 余 存 储 ,每 份 数据 在 系统 中 保 
存 3 个 以 上 备份 。 

客户 与 主 服务 器 的 交换 只 限于 对 元 数据 的 操作 ,所 有 数据 方面 的 通信 都 直接 和 块 服 
务 器 联系 ,这 大 大 提高 了 系统 的 效率 ,防止 主 服务 器 负载 过 重 。 

3. 海量 数据 管理 技术 (BT) 

云 计算 需要 对 分 布 的 ,海量 的 数据 进行 处 理 ,分析 , 因 此 ,数据 管理 技术 必须 能 够 高 效 
地 管理 大 量 的 数据 。 云 计算 系统 中 的 数据 管理 技术 主要 是 Google 的 BT(Big Table) 数 
据 管理 技术 和 Hadoop 团队 开发 的 开源 数据 管理 模块 HBase。 

BT 是 建立 在 GFS .Scheduler、Lock Service 和 MapReduce 之 上 的 一 个 大 型 的 分 布 式 
数据 库 ,与 传统 的 关系 数据 库 不 同 , 它 把 所 有 数据 都 作为 对 象 来 处 理 , 形 成 一 个 巨大 的 表 
格 ,用 来 分 布 存储 大 规模 结构 化 数据 。 

Google 的 很 多 项 日 使 用 BT 来 存储 数据 ,包括 网 页 查询 ,Google earth 和 Google 金 
融 。 这 些 应 用 程序 对 BT 的 要 求 各 不 相同 : 数据 大 小 (从 URL 到 网 页 到 卫星 图 像 ) 不 同 ， 
反应 速度 不 同 ( 从 后 端的 大 批 处 理 到 实时 数据 服务 )。 对 于 不 同 的 要 求 ,BT 都 成 功 地 提 
供 了 灵活 高 效 的 服务 。 

4. 虚拟 化 技术 

通过 虚拟 化 技术 可 实现 软件 应 用 与 底层 硬件 相隔 离 , 它 包括 将 单个 资源 划分 成 多 个 
虚拟 资源 的 裂 分 模式 ,也 包括 将 多 个 资源 整合 成 一 个 虚拟 资源 的 聚合 模式 。 虚 拟 化 技术 
根据 对 象 可 分 成 存储 虚拟 化 .计算 虚拟 化 .网 络 虚拟 化 等 ,计算 虚拟 化 又 分 为 系统 级 虚拟 
化 .应 用 级 虚拟 化 和 桌面 虚拟 化 。 

5. 云 计算 平台 管理 技术 

云 计算 资源 规模 庞大 ,服务 器 数量 众多 并 分 布 在 不 同 的 地 点 ,同时 运行 着 数 百 种 应 
用 ,如 何 有 效 地 管理 这 些 服 务 器 ,保证 整个 系统 提供 不 间断 的 服务 是 巨大 的 挑战 。 

云 计算 系统 的 平台 管理 技术 能 够 使 大 量 的 服务 器 协同 工作 ,方便 地 进行 业务 部 署 和 
开通 ,快速 发 现 和 恢复 系统 故障 ,通过 自动 化 、 智 能 化 的 手段 实现 大 规模 系统 的 可 靠 运 营 。 


2.2.6 典型 云 计算 平台 


云 计算 的 研究 吸引 了 不 同 技术 领域 巨头 ,因此 对 云 计算 理论 及 实现 架构 也 有 所 不 同 。 
下 面 以 Google 公司 的 云 计算 核心 技术 和 架构 作 基 本 讲解 。 

云 计算 的 先行 者 Google 的 云 计算 平台 能 实现 大 规模 分 布 式 计算 和 应 用 服务 程序 , 平 
台 包 括 MapReduce 分 布 式 处 理 技术 、Hadoop 框架 ,分布 式 的 文件 系统 GFS、 结 构 化 的 
BigTable 存储 系统 以 及 Google 其 他 的 云 计 算 支撑 要 素 。 

现 有 的 云 计算 通过 对 资源 层 、 平 台 层 和 应 用 层 的 虚拟 化 以 及 物理 上 的 分 布 式 集成 ,将 


ss 


庞大 的 IT 资源 整合 在 一 起 。 更 重要 的 是 , 云 计算 不 仅仅 是 资源 的 简单 汇集 , 它 为 我 们 提 
供 了 一 种 管理 机 制 , 让 整个 体系 作为 一 个 虚拟 的 资源 池 对 外 提供 服务 ,并 赋予 开发 者 透明 
获取 资源 、 使 用 资源 的 自由 。 


1. MapReduce 分 布 式 处 理 技术 


MapReduce 是 Google 在 2000 年 代 初 期 开发 的 用 于 网 页 索引 的 用 户 定义 函数 。 它 
被 设计 用 来 处 理 分 布 在 多 个 并 行 结 点 的 PB 级 和 EB 级 数据 。 

MapReduce 的 软件 实现 是 指定 一 个 Map( 上 映射) 函数 ,把 键 值 对 (key/value) 映 射 成 
新 的 键 值 对 (key/value) ,形成 一 系列 中 间 形 式 的 key/value 对 ,然后 把 它们 传 给 Reduce 
(化 简 ) 函 数 , 把 具有 相同 中 间 形 式 key 的 value 合并 在 一 起 。Map 和 Reduce 函数 具有 一 
定 的 关联 性 。 可 以 进行 海量 数据 分 割 ,任务 分 解 与 结果 汇总 ,从 而 完成 海量 数据 的 并 行 处 
理 ,如 图 2.8 所 示 。 
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2，MapReduce 架构 设计 


MapReduce 基础 出 发 点 是 易 懂 。 它 由 称 为 Map 和 Reduce 的 两 部 分 用 户 程序 组 成 ， 
然后 利用 框架 在 计算 机 集群 上 面 根据 需求 运行 多 个 程序 实例 来 处 理 各 个 子 任务 ,然后 青 
对 结果 进行 归并 ,如 图 2.9 所 示 。 

MapReduce 的 工作 原理 其 实 是 先 分 后 合 的 数据 处 理 方式 。Map 即 “ 分 解 ”, 把 海量 数 
据 分 割 成 了 若干 部 分 ,分 给 多 台 处 理 器 并 行 处 理 ;Reduce 即 “ 合 并 ”, 把 各 台 处 理 器 处 理 后 
的 结果 进行 汇总 操作 以 得 到 最 终结 果 。 如 果 采 用 MapReduce 来 统计 不 同 几 何 形 状 的 数 
量 , 它 会 先 把 任务 分 配 到 两 个 结 点 ,由 两 个 结 点 分 别 并 行 统计 ,然后 再 把 它们 的 结果 汇总 ， 
得 到 最 终 的 计算 结果 。MapReduce 执行 流程 如 图 2. 10 所 示 。 

3. Hadoop 架构 


Hadoop 是 一 个 处 理 .存储 和 分 析 海量 的 分 布 式 、 非 结构 化 数据 的 开源 框架 。 最 初 由 
雅虎 的 Doug Cutting 创建 ,Hadoop 的 灵感 来 自 于 MapReduce, Hadoop 集群 运行 在 廉价 
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2.10 MapReduce 执行 流程 


的 商用 硬件 上 ,这 样 硬件 扩展 就 不 存在 资金 压力 。Hadoop 现在 是 Apache 软件 联盟 (The 
Apache Software Foundation) 的 一 个 项 目 , 数 百名 贡献 者 不 断 改进 其 核心 技术 。 

其 基本 概念 与 将 海量 数据 限定 在 一 台 机 器 运行 的 方式 不 同 , Hadoop 将 大 数据 分 成 
多 个 部 分 ,这 样 每 个 部 分 都 可 以 被 同时 处 理 和 分 析 。 

在 Google 发 表 MapReduce 后 ,2004 年 开源 社 群 用 Java 搭建 出 一 套 Hadoop 框架 ， 
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用 于 实现 MapReduce 算法 ,能 够 把 应 用 程序 分 割 成 许多 很 小 的 工作 单元 ,每 个 单元 可 以 
在 任何 集群 结 点 上 执行 或 重复 执行 。 

此 外 ,Hadoop 还 提供 一 个 分 布 式 文件 系统 GFS(Google File System), 是 一 个 可 扩 
展 、 结 构 化 .具备 日 志 的 分 布 式 文件 系统 ,支持 大 型 分布 式 大 数据 量 的 读 写 操作 ,其 容错 
性 较 强 。 

而 分 布 式 数据 库 (BigTable) 是 一 个 有 序 、 稀 玻 、 多 维度 的 映射 表 , 有 和 良好 的 伸缩 性 和 
高 可 用 性 ,用 来 将 数据 存储 或 部 署 到 各 个 计算 结 点 一 一 一 一 一 一 一 一 一 一 

















上 。Hadoop 框架 具有 高 容错 性 及 对 数据 读 写 的 高 去 计算 架构 Hadoop 

吞吐 率 , 能 自动 处 理 失 败 结 点 ,如 图 2. 11 所 示 为 - 

Google Hadoop 架构 。 eA | 到 据 库 ) 
在 架构 中 MapReduce API 提供 Map 和 Reduce 

处 理 .GFS 分 布 式 文件 系统 和 BigTable 分 布 式 数 GFS(Google 分 布 式 文件 系统 ) 

据 库 提供 数据 存 取 。 基 于 Hadoop 可 以 非常 轻松 

和 方便 地 完成 处 理 海量 数据 的 分 布 式 并 行程 序 ,并 图 2.11 Hadoop 架 构 

运行 于 大 规模 集群 上 。 


1) Hadoop 如 何 工 作 

客户 从 日 志文 件 、 社 交 媒 体 供稿 和 内 部 数据 存储 等 来 源 获 得 非 结 构 化 和 半 结 构 化 数 
据 。 它 将 数据 打 碎 成 部分", 这 些 “ 部 分 ?被 载 人 到 商用 硬件 的 多 个 结 点 组 成 的 文件 系统 。 
Hadoop 的 默认 文件 存储 系统 是 Hadoop 分 布 式 文件 系统 。 文 件 系统 (如 HDFS) 适 合 存 
储 大 量 非 结构 化 和 半 结 构 化 数据 ,因为 它们 不 需要 将 数据 组 织 成 关系 型 的 行 和 列 。 

各 “部 分 "被 复制 多 次 ,并 加 载 到 文件 系统 。 这 样 ,如 果 一 个 结 点 失效 , 另 一 个 结 点 包 
含 失效 结 点 数据 的 副本 。 名 称 结 点 充当 调解 人 ,负责 沟通 信息 : 如 哪些 结 点 是 可 用 的 , 某 
些 数 据 存储 在 集群 的 什么 地 方 ,以 及 哪些 结 点 失效 。 

一 旦 数据 被 加 载 到 集群 中 , 它 就 准备 好 通过 MapReduce 框架 进行 分 析 。 客 户 提交 一 
个 “匹配 ”的 任务 ( 通常 是 用 Java 编写 的 查询 语句 ) 给 到 一 个 被 称 为 作业 跟踪 器 的 结 点 。 
该 作业 跟踪 器 引用 名 称 结 点 ,以 确定 完成 工作 需要 访问 哪些 数据 ,以 及 所 需 的 数据 在 集群 
的 存储 位 置 。 一 旦 确定 ,作业 跟踪 器 向 相关 结 点 提交 查询 。 每 个 结 点 同时 、 并 行 处 理 , 而 
非 将 所 有 数据 集中 到 一 个 位 置 处 理 。 这 是 Hadoop 的 一 个 本 质 特征 。 

当 每 个 结 点 处 理 完 指定 的 作业 , 它 会 存储 结果 。 客 户 通过 任务 追踪 器 启动 Reduce 
任务 。 汇 总 Map 阶段 存储 在 各 个 结 点 上 的 结果 数据 ,获得 原始 查询 的 “答案 ”, 然 后 将 “ 答 
案 ” 加 载 到 集群 的 另 一 个 结 点 中 。 客 户 就 可 以 访问 这 些 可 以 载 人 多 种 分 析 环 境 进 行 分 析 
的 结果 了 。MapReduce 的 工作 就 完成 了 。 

一 旦 MapReduce 阶段 完成 ,数据 科学 家 和 其 他 人 就 可 以 使 用 高 级 数据 分 析 技 巧 对 处 
理 后 的 数据 进一步 分 析 。 也 可 以 对 这 些 数 据 建 模 ,将 数据 从 Hadoop 集群 转移 到 现 有 的 
关系 型 数据 库 .数据 仓库 等 传统 IT 系统 进行 进一步 的 分 析 。 

Hadoop 的 三 大 核心 设计 如 图 2. 12 所 示 。 

2) Hadoop 的 技术 组 件 

Hadoop"“ 栈 ”由 多 个 组 件 组 成 。 包 括 : 
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2.12 Hadoop 三 大 核心 设计 


Hadoop 分 布 式 文件 系统 (HDFS) 一 一 所 有 Hadoop 集群 的 默认 存储 层 ; 
名 称 结 点 一 一 在 Hadoop 集群 中 ,提供 数据 存储 位 置 以 及 结 点 失效 信息 的 结 点 。 
。 二 级 结 点 一 一 名 称 结 点 的 备份 , 它 会 定期 复制 和 存储 名 称 结 点 的 数据 ,以 防 名 称 
结 点 失效 。 
作业 跟踪 器 一 一 Hadoop 集群 中 发 起 和 协调 MapReduce 作业 或 数据 处 理 任 务 的 

。 从 结 点 一 一 Hadoop 集群 的 普通 结 点 ,从 结 点 存储 数据 并 且 从 作业 跟踪 器 那里 获 

取 数 据 处 理 指令 。 

除了 上 述 内 容 以 外 ,Hadoop 生态 系统 还 包括 许多 免费 子 项 目 。NoSQL 数据 存储 系 
统 ( 如 Cassandra 和 HBase) 也 被 用 于 存储 Hadoop 的 MapReduce 作业 结果 。 除 了 Java， 
很 多 MapReduce 作业 及 其 他 Hadoop 的 功能 都 是 用 Pig 语言 写 的 , Pig 是 专门 针对 
Hadoop 设计 的 开源 语言 。Hive 最 初 是 由 Facebook 开发 的 开源 数据 仓库 ,可 以 在 
Hadoop 中 建立 分 析 模 型 。 

3) Hadoop: 优点 和 缺点 

Hadoop 的 主要 好 处 是 , 它 可 以 让 企业 以 节省 成 本 并 以 高 效 的 方式 处 理 和 分 析 大 量 
的 非 结构 化 和 半 结 构 化 数据 ,而 这 类 数据 迄今 还 没有 其 他 处 理 方式 。 因 为 Hadoop 集群 
可 以 扩展 到 PB 级 甚至 EB 级 数据 ,企业 不 再 必须 依赖 于 样本 数据 集 , 而 可 以 处 理 和 分 析 
所 有 相关 数据 。 数 据 科学 家 可 以 采用 迭代 的 方法 进行 分 析 ,不 断 改 进 和 测试 查询 语句 ,从 
而 发 现 以 前 未 知 的 见解 。 使 用 Hadoop 的 成 本 也 很 廉价 。 开 发 者 可 以 免费 下 载 Apache 
的 Hadoop 分 布 式 平台 ,并 且 在 不 到 一 天 的 时 间 内 开始 体验 Hadoop 。 

Hadoop 及 其 无 数组 件 的 不 足 之 处 是 ,它们 还 不 成 熟 , 仍 处 于 发 展 阶段 。 就 像 所 有 新 
的 ,原始 的 技术 一 样 ,实施 和 管理 Hadoop 集群 ,对 大 量 非 结构 化 数据 进行 高 级 分 析 ,都 需 
要 大 量 的 专业 知识 ,技能 和 培训 。 不 幸 的 是 ,目前 Hadoop 开发 者 和 数据 科学 家 的 缺乏 ， 
使 得 众多 企业 维持 复杂 的 Hadoop 集群 并 利用 其 优势 变 得 很 不 现实 。 

此 外 ,由 于 Hadoop 的 众多 组 件 都 是 通过 技术 社区 得 到 改善 ,并 且 新 的 组 件 不 断 被 创 
建 ,因此 作为 不 成 熟 的 开源 技术 ,也 存在 失败 的 风险 。 最 后 ,Hadoop 是 一 个 面向 批 处 理 
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的 框架 ,这 意味 着 它 不 支持 实时 的 数据 处 理 和 分 析 。 

4. Google 云 计算 执行 过 程 

云 计算 服务 方式 多 种 多 样 ,通过 对 Google 云 计算 架构 及 技术 的 理解 ,在 此 我 们 给 出 
用 户 将 要 执行 的 程序 或 处 理 的 问题 提交 云 计算 的 平台 Hadoop, 其 执行 过 程 如 图 2. 13 
所 示 。 



























































MapReduce API 
Master Workerl Worker2"Workern 
选择 执行 Map 分 配 数据 块 
程序 的 Worker 到 执行 Map 和 民生 
机 器 的 机 器 执行 
选择 执行 结合 GFS 和 读 取 远 程 Map， 
Reduce 程 Big Table 混合 、 汇 整 、 
序 的 Worker 排序 、 执 行 
机 器 Reduce 




















2.13 ”Google 云 计算 执行 过 程 


如 图 2. 13 所 示 的 Google 云 计算 执行 过 程 包括 以 下 步 又 : 

(1) 将 要 执行 的 MPI 程序 复制 到 Hadoop 框架 中 的 Master 和 每 一 台 Worker 机 
器 中 。 

(2) Master 选择 由 哪些 Worker 机 器 来 执行 Map 程序 与 Reduce 程序 。 

(3) 分 配 所 有 的 数据 区 块 到 执行 Map 程序 的 Worker 机 器 中 进行 Map( 切 割 成 小 块 
数据 ) 。 

(4) 将 Map 后 的 结果 存 人 Worker 机 器 。 

(5) 执行 Reduce 程序 的 Worker 机 器 ,远程 读 取 每 一 份 Map 结果 ,进行 混合 、 汇 整 与 
排序 ,同时 执行 Reduce 程序 。 

(6) 将 结果 输出 给 用 户 ( 开 发 者 ) 。 

在 云 计算 中 为 了 保证 计算 和 存储 等 操作 的 完整 性 ,充分 利用 MapReduce 的 分 布 和 可 
靠 特性 ,在 数据 上 传 和 下 载 过 程 中 根据 各 Worker 结 点 在 指定 时 间 内 反馈 的 信息 判断 结 
点 的 状态 是 正常 还 是 死亡 。 若 结 点 死亡 , 则 将 其 负责 的 任务 分 配给 别 的 结 点 ,以 确保 文件 
数据 的 完整 性 。 


2.2.7 典型 的 云 计 算 系 统 及 应 用 
由 于 云 计算 技术 范围 很 广 ,目前 各 大 IT 企业 提供 的 云 计算 服务 主要 根据 自身 的 特 
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点 和 优势 实现 的 。 下 面 以 Google、IBM、Amazon 为 例 说 明 。 

1，Google 的 云 计算 平台 

Google 的 硬件 条 件 优 势 ,大 型 的 数据 中 心 .搜索 引擎 的 支柱 应 用 ,促进 Google 云 计 
算 迅 速 发 展 。Google 的 云 计算 主要 由 MapReduce、Google 文件 系统 (GFS) .BigTable 组 
成 。 它 们 是 Google 内 部 云 计算 基础 平台 的 3 个 主要 部 分 。Google 还 构建 其 他 云 计 算 组 
件 ,包括 一 个 领域 描述 语言 以 及 分 布 式 锁 服务 机 制 等 。Sawzall 是 一 种 建立 在 
MapReduce 基础 上 的 领域 语言 ,专门 用 于 大 规模 的 信息 处 理 。Chubby 是 一 个 高 可 用 ,分 
布 式 数据 锁 服 务 , 当 有 机 器 失效 时 ,Chubby 使 用 Paxos 算法 来 保证 备份 。 

2. IBM"* 蓝 云 " 计 算 平 台 

“ 蓝 云 ”解决 方案 是 由 IBM 云 计算 中 心 开发 的 企业 级 云 计算 解决 方案 。“ 蓝 云 " 基 于 
IBM Almaden 研究 中 心 的 云 基 础 架构 ,采用 了 Xen 和 PowerVM 虚拟 化 软件 ,Linux 操作 
系统 映像 以 及 Hadoop 软件 (Google File System 以 及 MapReduce 的 开源 实现 ) 。 

“ 蓝 云 ”计算 平台 由 一 个 数据 中 心 .IBM Tivoli 部 署 管 理 软 件 (Tivoli provisioning 
manager) .IBM Tivoli 监控 软件 (IBM Tivoli monitoring) .IJBM WebSphere 应 用 服务 器 、 
IBM DB2 数据 库 以 及 一 些 开源 信息 处 理 软件 和 开源 虚拟 化 软件 共同 组 成 。“ 蓝 云 ”的 硬 
件 平台 环境 与 一 般 的 x86 服务 器 集群 类 似 , 使 用 刀片 的 方式 增加 了 计算 密度 。“ 蓝 云 " 软 
件 平台 的 特点 主要 体现 在 虚拟 机 以 及 对 于 大 规模 数据 处 理 软 件 Apache Hadoop 的 使 
用 上 

“ 蓝 云 ”平台 的 一 个 重要 特点 是 虚拟 化 技术 的 使 用 。 虚 拟 化 的 方式 在 “ 蓝 云 "中 有 两 个 
级 别 : 一 个 是 在 硬件 级 别 上 实现 虚拟 化 , 另 一 个 是 通过 开源 软件 实现 虚拟 化 。 硬 件 级 别 
的 虚拟 化 可 以 使 用 IBM p 系列 的 服务 器 ,获得 硬件 的 逻辑 分 区 LPAR (logic partition ) 。 
逻辑 分 区 的 CPU 资源 能 够 通过 IBM Enterprise Workload Manager 来 管理 。 通 过 这 样 
的 方式 加 上 在 实际 使 用 过 程 中 的 资源 分 配 策略 ,能 够 使 相应 的 资源 合理 地 分 配 到 各 个 好 
辑 分 区 。p 系列 系统 的 逻辑 分 区 最 小 粒度 是 1/10 颗 CPU。Xen 则 是 软件 级 别 上 的 虚拟 
化 ,能 够 在 Linux 基础 上 运行 另外 一 个 操作 系统 。 

“ 蓝 云 "存储 体系 结构 包含 类 似 于 Google File System 的 集群 文件 系统 以 及 基于 块 设 
备 方式 的 存储 区 域 网 络 SAN。 在 设计 云 计 算 平 台 的 存储 体系 结构 时 ,可 以 通过 组 合 多 个 
磁盘 获得 很 大 的 磁盘 容量 。 相 对 于 磁盘 的 容量 ,在 云 计算 平台 的 存储 中 ,磁盘 数据 的 读 写 
速度 是 一 个 更 重要 的 问题 ,因此 需要 对 多 个 磁盘 进行 同时 读 写 。 这 种 方式 要 求 将 数据 分 
配 到 多 个 结 点 的 多 个 磁盘 当中 。 为 达到 这 一 目的 ,存储 技术 有 两 个 选择 : 一 个 是 使 用 类 
似 于 Google File System 的 集群 文件 系统 , 另 一 个 是 基于 块 设备 的 存储 区 域 网 络 SAN 
系统 。 

3， Amazon 的 弹性 计算 云 

Amazon 是 互联 网 上 最 大 的 在 线 零 售 商 , 为 了 应 付 交 易 高 峰 , 不 得 不 购买 了 大 量 的 服 
务 器 。 而 在 大 多 数 时 间 ,大 部 分 服务 器 闲置 ,造成 了 很 大 的 浪费 ,为 了 合理 利用 空闲 服务 
器 ,Amazon 建立 了 自己 的 云 计算 平台 弹性 计算 云 EC2(Elastic Compute Cloud) ,并 且 是 
第 一 家 将 基础 设施 作为 服务 出 售 的 公司 。 





人 


Amazon 将 自己 的 弹性 计算 云 建立 在 公司 内 部 的 大 规模 集群 计算 的 平台 上 ,而 用 户 
可 以 通过 弹性 计算 云 的 网 络 界面 去 操作 在 云 计算 平台 上 和 运行 的 各 个 实例 (instance)。 用 
户 使 用 实例 的 付费 方式 由 用 户 的 使 用 状况 决定 , 即 用 户 只 需 为 自己 所 使 用 的 计算 平台 实 
例 付费 ,运行 结束 后 计 费 也 随 之 结束 。 这 里 所 说 的 实例 即 是 由 用 户 控制 的 完整 的 虚拟 机 
运行 实例 。 通 过 这 种 方式 ,用 户 不 必 自 己 去 建立 云 计算 平台 ,节省 了 设备 与 维护 费用 。 

弹性 计算 去 用户 使 用 客户 端 通过 SOAP over HTTPS 协议 与 Amazon 弹性 计算 云 内 
部 的 实例 进行 交互 。 这 样 , 弹 性 计算 云 平台 为 用 户 或 者 开发 人 员 提 供 了 一 个 虚拟 的 集群 
环境 ,在 用 户 具 有 充分 灵活 性 的 同时 ,也 减轻 了 云 计算 平 台 拥有 者 (Amazon 公司 ) 的 管理 
负担 。 弹 性 计算 云 中 的 每 一 个 实例 代表 一 个 运行 中 的 虚拟 机 。 用 户 对 自己 的 虚拟 机 具有 
完整 的 访问 权限 ,包括 针对 此 虚拟 机 操作 系统 的 管理 员 权 限 。 虚 拟 机 的 收费 也 是 根据 虚 
拟 机 的 能 力 进行 费用 计算 的 ,实际 上 ,用 户 租 用 的 是 虚拟 的 计算 能 力 。 

总 而 言 之 ,Amazon 通过 提供 弹性 计算 云 , 满 足 了 小 规模 软件 开发 人 员 对 集群 系统 的 
需求 , 减 小 了 维护 负担 。 其 收费 方式 相对 简单 明了 用 户 使 用 多 少 资源 ,只 需 为 这 一 部 分 
资源 付费 即 可 。 

为 了 弹性 计算 云 的 进一步 发 展 ,Amazon 规划 了 如 何在 云 计算 平台 基础 上 帮助 用 户 
开发 网 络 化 的 应 用 程序 。 除 了 网 络 零售 业务 以 外 , 云 计算 也 是 Amazon 公司 的 核心 价值 
所 在 。Amazon 将 来 会 在 弹性 计算 云 的 平台 基础 上 添加 更 多 的 网 络 服务 组 件 模块 ,为 用 
户 构建 云 计算 应 用 提供 方便 。 

4. 云 计算 系统 间 的 特性 比较 

从 用 户 的 角度 来 看 , 云 计算 系统 将 各 种 数据 包括 用 户 数据 都 通过 网 络 保存 到 远 端 的 云 
存储 平台 上 , 减 小 了 用 户 对 于 数据 管理 的 负担 ;同时 , 云 计算 系统 也 将 处 理 数据 的 服务 程序 
通 过 远程 的 大 规模 云 计 算 处 理 平台 进行 ,能 够 负担 大 量 数据 的 处 理工 作 。 可 以 说 , 云 计算 
是 数据 共享 计算 模式 与 服务 共享 计算 模式 的 结合 体 ,是 下 一 代 计 算 模 式 的 发 展 方向 。 

各 个 云 计算 平台 各 自 具 有 不 同 的 特点 。 特 别 是 在 平台 的 使 用 上 ,透明 计算 平台 为 用 
户 同 时 提供 了 用 户 实 际 接触 的 客户 端 结 点 以 及 无 法 接触 的 远程 虚拟 存储 服务 器 ,是 一 个 
半 公 开 的 环境 。 表 2. 1 从 多 个 角度 比较 了 各 个 云 计 算 系统 的 不 同 之 处 。 可 以 看 出 ,虽然 
云 计算 系统 在 很 多 方面 具有 共性 ,但 实际 上 各 个 系统 之 间 还 是 有 很 大 不 同 的 ,这 也 给 云 计 
算 用 户 或 者 开发 人 员 带 来 了 不 同 的 体验 。 


表 2.1 各 个 云 计算 系统 的 比较 














云 计算 平台 特性 Google 云 计算 架构 IBM 云 计算 产品 亚马逊 弹性 计算 云 
在 搜索 基础 上 建立 的 新 的 网 络 | 采用 了 虚拟 技术 , 既 能 运行 | 
PN 系统 ;当前 的 软件 还 不 能 在 该 | 传统 软件 又 能 提供 新 的 云 计 | 四 甩 了 此 塌 撞 本 ， 

架构 下 运行 ,无 兼容 性 算 接 口 给 新 应 用 程序 开发 
系统 的 开放 性 | 采用 内 部 技术 采用 开源 技术 ee 
系统 虚拟 技术 的 | 未 采用 系统 虚拟 技术 ,只 能 支 | 采用 开源 虚拟 软 
en 采用 开 沽 虚拟 软件 Xen 。 | 采用 
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用 户 可 以 直接 使 用 ,同时 提供 
目标 用 户 网 络 应 用 程序 编程 标准 给 开发 | 开发 人 员 开发 人 员 
人 员 





局 部 分 布 式 应 用 程序 编程 





接口 








编程 支持 提供 网 络 应 用 程序 编程 标准 网 络 远 程 操作 接口 


2.2.8 大 数据 平台 的 应 用 

1. 传统 处 理 平台 已 不 适应 大 数据 的 处 理 

大 数据 环境 下 数据 来 源 非常 丰富 且 数 据 类 型 多 样 ,存储 和 分 析 挖 掘 的 数据 量 庞大 ,对 
数据 展现 的 要 求 较 高 ,并 且 很 看 重 数据 处 理 的 高 效 性 和 可 用 性 。 

传统 的 数据 采集 来 源 单一 , 且 存储 ,管理 和 分 析 数 据 量 也 相对 较 小 ,大 多 采用 关系 型 
数据 库 和 并 行 数据 仓库 即 可 处 理 。 对 依靠 并 行 计算 提升 数据 处 理 速度 方面 而 言 ,传统 的 
并 行 数据 库 技术 追求 高 度 一 致 性 和 容错 性 ,根据 CAP 理论 ,难以 保证 其 可 用 性 和 扩展 性 。 

传统 的 数据 处 理 方法 是 以 处 理 器 为 中 心 ,而 在 大 数据 环境 下 ,需要 采取 以 数据 为 中 心 的 
模式 ,减少 数据 移动 带 来 的 开销 。 因 此 ,传统 的 数据 处 理 方法 ,已 经 不 能 适应 大 数据 的 需求 ! 

2. 大 数据 平台 的 处 理 方式 

大 数据 的 基本 处 理 流程 与 传统 数据 处 理 流程 并 无 太 大 差异 ,主要 区 别 在 于 : 由 于 大 
数据 要 处 理 大 量 , 非 结构 化 的 数据 ,所 以 在 各 个 处 理 环节 中 都 可 以 采用 MapReduce 等 方 
式 进 行 并 行 处 理 , 如 图 2. 14 所 示 。 





数据 采集 一 数据 预 处 理 “ 一 数据 存储 “一 > 数据 分 析 / 控 掘 一 > 结果 展现 


» 1 1 1 


型 Ck 2 » He PowerView 
工 waFlum 


典 


HBase Mahout LTEN I 


具 





图 2.14 大 数据 平台 的 处 理 方式 


3, 大 数据 技术 为 什么 能 提高 数据 的 处 理 速 度 
大 数据 可 以 通过 MapReduce 这 一 并 行 处 理 技术 来 提高 数据 的 处 理 速 度 。 


下 


MapReduce 的 设计 初衷 是 通过 大 量 廉价 服务 器 实现 大 数据 并 行 处 理 , 对 数据 一 致 性 要 求 
不 高 ,其 突出 优势 是 具有 扩展 性 和 可 用 性 ,特别 适用 于 海量 的 结构 化 、 半 结构 化 及 非 结构 
化 数据 的 混合 处 理 ,如 图 2. 15 所 示 。 
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2.15 MapReduce 技术 进行 实时 分 析 


MapReduce 将 传统 的 查询 ,分 解 及 数据 分 析 进 行 分 布 式 处 理 , 将 处 理 任务 分 配 到 不 
同 的 处 理 结 点 ,因此 具有 更 强 的 并 行 处 理 能 力 。 作 为 一 个 简化 的 并 行 处 理 的 编程 模型 ， 
MapReduce 还 降低 了 开发 并 行 应 用 的 门槛 。 

MapReduce 适合 进行 数据 分 析 、 日 志 分 析 、 商 业 智能 分 析 、 客 户 营销 .大 规模 索引 等 
业务 ,并 具有 非常 明显 的 效果 。 通 过 结合 MapReduce 技术 进行 实时 分 析 , 某 家 电 公 司 的 
信用 计算 时 间 从 33 小 时 缩短 到 8 秒 ,而 MKI 的 基因 分 析 时间 从 数 天 缩短 到 20 分 钟 。 

说 到 这 里 ,再 看 一 看 MapReduce 与 传统 的 分 布 式 并 行 计算 环境 MPI 到 底 有 何不 同 ? 
MapReduce 在 其 设计 目的 、 使 用 方式 以 及 对 文件 系统 的 支持 等 方面 与 MPI 都 有 很 大 的 
差异 ,使 其 能 够 更 加 适应 大 数据 环境 下 的 处 理 需 求 ,如 表 2.2 所 示 。 


表 2.2 MapReduce 与 传统 的 分 布 式 并 行 计 算 环境 MPI 的 区 别 











MapReduce MPI 
用 于 互联 网 服务 用 于 科学 计算 
使 用 大 量 廉价 PC 多 使 用 专用 并 行 机 
设计 目的 耦合 度 低 耦合 度 高 
结 点 失效 率 高 结 点 失效 率 低 
有 容错 机 制 无 备份 
以 架构 形式 提出 
二 提供 结 点 间 信 息 沟通 的 工具 ,架构 不 固定 
使 用 方式 ed i 计算 结 点 由 开发 者 指定 
对 文件 系统 的 支持 分 布 式 文件 系统 不 支持 分 布 式 文件 系统 ,数据 集中 存储 
支持 加 通过 MapReduce 函数 实现 分 布 并 行 | 由 高 级 语言 通过 调用 标准 函数 传递 消息 实 
计算 现 并 行 计算 
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2.3 大 数据 应 用 案例 之 : 在 “北上 广 ” 打 拼 是 怎样 一 种 体验 


到 “北上 广 ” 等 大 都 市 去 问 荡 、 打 拼 , 是 很 多 年 轻 人 的 梦想 。 即 便 是 在 高 房价 、 高 物价 、 
交通 拥堵 .空气 污染 下 被 迫 离开 的 人 ,也 有 相当 一 部 分 重新 回来 。 这 些 远离 亲人 ,选择 面 
对 生活 的 艰苦 和 孤独 的 年 轻 人 ,究竟 是 怎样 的 群体 ,又 过 着 什么 样 的 生活 ? 通过 大 数据 分 
析 ,你 或 许 能 了 解 一 二 。 

1. 北上 广 的 * 昧 ? 们 都 来 自 哪里 

根据 卫 计 委 2014 年 数据 ,全 国 9433 万 跨 省 流动 人 口 ,超过 1/5 涌 人 了 北京 .上 海 . 广 
州 三 个 城市 。 特 别 是 广州 ,外 来 人 口 数量 已 经 超过 了 常住 户籍 人 口 ,而 在 北京 和 上 海 ,本 
地 人 和 外 地 人 的 比例 分 别 是 1.6 : 1 和 1.44 :1, 如 图 2.16 所 示 。 

2013 年 “北上 广 ” 的 本 地 人 与 外 地 人 数量 (万 ) 
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北京 上 海 广州 口外 来 流动 人 口 、” 卓 常住 户籍 人 口 
图 2.16 2013 年 “北上 广 ” 的 本 地 人 与 外 地 人 数量 (万 ) 


从 外 来 人 口 来 源 省 份 看 ,北京 .上 海 .广州 分 别 在 华北 、 华 中 、 华 南 地 区 以 吸收 周边 邻 
省 人 口 为 主 。 而 作为 人 口 流出 大 省 的 河南 、 湖 北 , 则 同时 进入 了 “北上 广 ” 外 来 人 口 数 量 排 
名 的 前 五 ,可 见 其 南北 通 吃 .势力 强大 。 

2. 年 纪 轻 ,学 历 高 ,或 更 能 站 稳 脚 跟 

在 “北上 广 ”, 拼 搏 奋 斗 的 核心 人 群 在 20 一 40 岁 之 间 , 占 整体 外 来 人 口 比 例 都 超过 
75%。 但 从 年 龄 结构 比较 ,上 海 的 年 轻 群体 年 龄 段 更 为 集中 ,北京 45 岁 以 上 人 和 群 占 比 明 
显 大 于 其 他 ,而 广州 外 来 人 口 的 年 龄 构成 则 更 偏向 年 轻 化 。 

2012 年 ,国家 人 口 计生 委 曾 对 “北上 广 ”35 岁 以 下 青年 流动 人 口 的 生活 状态 作 过 监测 
研究 。 发 现 收入 是 影响 其 生活 质量 的 重要 因素 之 一 ,更 是 坚守 或 逃离 “北上 广 ” 的 关键 。 

影响 收入 最 关键 的 因素 被 认为 是 学 历 。“ 北 上 广 ” 三 地 学 历 在 本 科 以 上 的 外 来 青年 ， 
月 均 收入 分 别 是 5652 元 .5756 元 和 6569 元 , 详 见 图 2. 17。 

“流动 中 国 ” 调 查 数据 显示 ,广州 本 科 及 以 上 学 历 的 青年 人 群 比例 确实 远 低 于 北京 和 
上 海 ,这 或 许 是 高 学 历年 轻 人 在 广州 更 “吃香 ”的 一 个 原因 。 
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“北上 广 ” 外 来 人 口 学 历 构成 


初中 级 以 下 
让、 中 全 技术 


SEE 
a 


数据 来 源 :“ 流 动 中 国 ”调查 
图 2.17 外 来 人 口 学 历 构 成 


另外 ,在 上 海 、 广 州 的 外 来 年 轻 人 和 全 国 同龄 流动 人 口 一 样 ,以 从 事 制造 业 为 主 , 约 占 
四 成 左右 ,其 次 是 批发 零售 .建筑 .社会 服务 等 行业 。 

不 过 ,北京 的 情况 较为 不 同 ,从 事 制造 业 的 比重 明显 较 低 ,从 事 互 联网 ,金融 、 房 地 产 
的 明显 高 于 其 他 二 者 。 这 与 北京 外 来 青年 学 历 层次 较 高 及 城市 功能 定位 有 关 , 详 见 
图 2.18。 


“北上 广 ” 外 来 人 群 就 业 行业 结构 
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数据 来 源 :“ 流 动 中 国 ”调查 
图 2.18 外 来 人 口 就 业 行业 构成 


3. 一 样 的 “ 味 ”, 却 分 出 了 上 .中 、 下 

在 “北上 广 ” 三 地 ,外 来 人 口 的 住房 情况 大 体 一 致 , 均 有 过 半数 人 租房 居住 。 北 京 人 均 
租房 平均 月 支出 904 元 ,超过 全 国平 均 水 平 70% ,几乎 是 食品 月 支出 的 两 倍 。 可 见 租房 
的 花 销 最 让 “ 北 漂 ” 们 肉 痛 。 “流动 中 国 ” 调 查 数据 中 ,广州 的 老板 们 能 给 解决 住宿 的 比例 
最 高 ,这 一 点 格外 明显 , 详 见 图 2. 19。 

当然 ,在 不 同 历史 和 政策 背景 下 ,“ 北 上 广 ” 三 地 也 均 形 成 了 外 来 人 口 聚 居 的 城中 村 ， 
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“北上 广 ”外 来 人 群居 住 状况 


自己 租房 : 
已 购买 住房 | 
所 在 单位 房屋 
其 他 ; 
政府 提供 廉 租房 : 


A -~--- 


北京 上 海 广州 


i 


数据 来 源 :“ 流 动 中 国 ” 调 查 
图 2.19 外 来 人 群居 住 状态 


作为 多 数 人 “停泊 ”的 首 站 。 随 着 房价 持续 上 涨 ,北京 的 “ 蚁 族 ”、 上 海 的 “蜗居 ”一 族 曾 一 度 
在 公众 中 流行 。 

比较 “北上 广 ” 的 城中 村 ,着 实 是 一 个 有 趣 的 话题 ,如 图 2. 20 所 示 的 外 来 人 群居 住 状 
态 及 房屋 空间 变化 呈现 了 其 中 的 不 同 。 广 州 的 城中 村 散布 在 城市 中 的 各 个 角落 ,规模 和 
占 地 都 较 大 ;上 海 的 则 分 布 在 内 环 外 靠近 外 围 地 区 , 且 规模 较 小 ;北京 城中 村 主要 分 布 在 
城市 建成 区 边缘 地 带 , 约 为 五 环 附近 。 


城中 村 的 区 域 分 布 : 
北京 城中 村 上 海 城中 村 广州 城中 村 
城中 村 房屋 的 空间 变化 : 


北京 城中 村 | | | ] | 


上 海 城中 村 | | | 出 


广州 城中 村 | 有 


资料 来 源 《“ 北 上 广 ”城中 村 外 来 人 口 居 住 研究 》 
图 2.20 城中 村 区 域 分 布 及 房屋 空间 变化 
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更 为 有 趣 的 是 ,在 大 量 外 来 人 口 涌 入 后 ,“ 北 上 广 ” 三 地 城中 村 内 房屋 空间 的 变化 。 

北京 多 为 不 断 下 压 的 空间 。 在 北京 圈 层 的 外 扩 中 ,内 城 的 城中 村 逐步 被 拆迁 。 城 郊 
村 在 形态 上 更 多 的 呈现 一 种 原始 聚集 村 落 形式 ,多 为 一 层 或 两 层 的 平房 ,每 户 拥有 自己 的 
院落 房屋 ,部 分 有 地 下 室 。 

上 海 则 多 是 不 断 向 内 挤 压 空间 。 对 于 管 治 最 为 严格 的 上 海 ,一 方面 迫 于 强硬 的 政策 
与 监管 ,一 方面 又 拥有 异常 旺盛 的 住房 需求 ,所 以 只 能 在 漫长 的 “等 待 拆迁 ”中 通过 内 部 挤 
压 的 方法 “ 塞 ” 进 更 多 的 人 。 村 内 原 有 的 楼 梯 间 、 独 立 厨 房 、 独 立 洗手 间 、 院 落 等 均 被 改造 
和 分 隔 成 住房 。 

相 比 较 北 京 和 上 海 , 广 州 的 城市 监管 较为 松散 ,城中 村 多 加 向 上 加 建 房屋 ,表现 出 一 
种 不 断 加 建 的 空间 。 

4. 虽然 可 能 并 不 幸福 ,但 还 是 希望 融 人 

青年 们 的 人 际 交往 状况 又 是 如 何 ?《 中 国 流动 人 口 发 展 报告 ) 的 结论 是 ,北京 上 海 的 
外 来 青年 中 6. 3% 、11.4% 很 少 与 人 交往 。 

其 中 ,上 海 的 外 来 青年 很 少 与 取得 上 海 户 籍 的 同乡 及 本 地 人 交往 ,将 近 60% 经 常 与 
同乡 交往 。 而 北京 的 外 来 青年 更 愿意 与 本 地 人 来 往 , 显 示 出 更 高 的 开放 性 和 融入 愿望 ， 
图 2. 21 为 外 来 青年 人 际 交 往 状 况 。 


00 《中 国 流动 人 口 发 展 报告 》 调 查 : (%) 
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0 一 北京 上 海 广州 日 生活 幸福 目 愿 意 融入 
《中 国 流动 人 口 发 展 报告 》 调 查 : (%) 
图 2. 21 外 来 青年 人 际 交往 状况 




















如 果 问 及 在 大 都 市 生活 “是 否 比 在 老家 更 幸福 ”, 北 京 .上 海 的 外 来 青年 分 别 有 
32.8%、35.8% 的 人 回答 肯定 , 略 高 于 全 国平 均 水 平 ;而 广州 只 有 28. 4% 的 人 感到 幸福 。 
但 问 及 融入 的 意愿 “北上 广 ” 三 地 的 外 来 青年 均 有 超过 90% 的 人 愿意 融入 。 

资料 来 源 :《 中 国 流动 人 口 发 展 报告 X“* 北 上 广 ” 城 中 村 外 来 人 口 居住 研究 》 


习题 与 思考 题 


一 、 选 择 题 
1. 目前 ,选用 开源 的 虚拟 化 产品 组 建 虚拟 化 平台 ,构建 基于 硬件 的 虚拟 化 层 ,可 以 选 
用 (  )。 
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A. Xen B. VMware C. Hyper-v DG 
2. 在 云 计算 中 ,虚拟 层 主要 包括 (  )。 

A. 服务 器 虚拟 化 B. 存储 虚拟 化 

C. 网 络 虚拟 化 D. 桌面 虚拟 化 


3. Hadoop 项 目 包括 ( ys 
A. Hadoop Distributed File System( HDFS) 
B. Hadoop MapReduce 编程 模型 
C. Hadoop Streaming 
D. Hadoop Common 


4. 云 计算 的 服务 方式 有 (  )。 


A. IaaS B. Raas C. PaaS D. SaaS 
5， Amazon. com 公司 通过 ( ) 计 算 云 ,可 以 让 客户 通过 Web Service 方式 租用 计 
算 机 来 运行 自己 的 应 用 程序 。 
A. S3 B. HDFS €. EC2 D. GFS 


6. 云 是 一 个 平台 ,是 一 个 业务 模式 ,给 客户 群体 提供 一 些 比较 特殊 的 IT 服务 ,分 为 
( ， ) 三 部 分 。( 多 选 题 ) 
A. 管理 平台 B. 服务 提供 C. 构建 服务 D. 硬件 更 新 
“、 问 答题 
1. 什么 是 云 计 算 ? 
2. 画图 描述 云 计算 系统 的 体系 结构 。 
3. 简 述 云 计 算 服务 层次 。 
4. 云 计算 的 核心 技术 有 哪些 ?相互 之 间 有 什么 关系 ? 
5, 有 哪 几 种 典型 的 云 计算 系统 ?其 分 别 应 用 在 哪些 方面 ? 
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3.1 大 数据 采集 概念 


足够 的 数据 量 是 企业 大 数据 战略 建设 的 基础 ,因此 数据 采集 就 成 了 大 数据 分 析 的 前 
站 。 采 集 是 大 数据 价值 挖掘 重要 的 一 环 , 其 后 的 分 析 挖 掘 都 建立 在 采集 的 基础 上 。 大 数 
据 技术 的 意义 确实 不 在 于 掌握 规模 庞大 的 数据 信息 ,而 在 于 对 这 些 数 据 进 行 智 能 处 理 , 从 
中 分 析 和 挖掘 出 有 价值 的 信息 ,但 前 提 是 拥有 大 量 的 数据 。 

绝 大 多 数 的 企业 现在 还 很 难 判断 ,到 底 哪 些 数据 未 来 将 成 为 资产 ,通过 什么 方式 将 数 
据 提炼 为 现实 收入 。 对 于 这 一 点 即便 是 大 数据 服务 企业 也 很 难 给 出 确定 的 答案 。 但 有 一 
点 是 肯定 的 一 一 大 数据 时 代 , 谁 掌握 了 足够 的 数据 , 谁 就 有 可 能 掌握 未 来 ,现在 的 数据 采 
集 就 是 将 来 的 资产 积累 。 

数据 的 采集 有 基于 物 联 网 传感器 的 采集 ,也 有 基于 网 络 信息 的 数据 采集 。 比 如 在 智 
能 交通 中 ,数据 的 采集 有 基于 GPS 的 定位 信息 采集 、 基 于 交通 摄像 头 的 视频 采集 、 基 于 交 
通 卡 口 的 图 像 采 集 、 基 于 路 口 的 线圈 信号 采集 等 。 而 在 互联 网 上 的 数据 采集 是 对 各 类 网 
络 媒介 ,如 搜索 引擎 .新闻 网 站 ,论坛 . 微 博 ,博客 、 电 商 网 站 等 的 各 种 页 面 信息 和 用 户 访问 
信息 进行 采集 ,采集 的 内 容 主 要 有 文本 信息 、URL ,访问 日 志 , 日 期 和 图 片 等 。 之 后 我 们 
需要 把 采集 到 的 各 类 数据 进行 清洗 .过 滤 ,去 重 等 各 项 预 处 理 并 分 类 归纳 存储 。 

数据 采集 过 程 中 涉及 数据 抽取 ,数据 的 清洗 转换 ,数据 的 加 载 三 个 过 程 ,其 英文 缩写 
为 ETL(Extract、 Transform Load) 。 

数据 采集 的 ETL 工具 负责 将 分 布 的 . 异 构 数 据 源 中 的 不 同 种 类 和 结构 的 数据 如 文本 
数据 ,关系 数据 以 及 图 片 .视频 等 非 结 构 化 数据 等 抽取 到 临时 中 间 层 后 进行 清洗 、 转 换 、 分 
类 、 集 成 ,最 后 加 载 到 对 应 的 数据 存储 系统 如 数据 仓库 或 数据 集 市 中 ,成 为 联机 分 析 处 理 、 
数据 挖掘 的 基础 。 

针对 大 数据 的 ETL 工具 同时 又 有 别 于 传统 的 ETL 处 理 过 程 ,因为 一 方面 大 数据 的 
体 量 巨大 , 另 一 方面 数据 的 产生 速度 也 非常 快 , 比 如 一 个 城市 的 视频 监控 头 、 智 能 电表 每 
一 秒 钟 都 在 产生 大 量 的 数据 ,对 数据 的 预 处 理 需要 实时 快速 ,因此 在 ETL 的 架构 和 工具 
选择 上 ,也 会 采用 如 分 布 式 内 存 数据 库 、 实 时 流 处 理 系统 等 现代 信息 技术 。 

现代 企业 中 存在 各 种 不 同 的 应 用 和 各 种 数据 格式 及 存储 需求 ,但 在 企业 之 间 , 企 业内 
部 都 存在 条 块 分 割 ,信息 孤岛 的 现象 ,各 个 企业 之 间 的 数据 不 能 实现 可 控 的 数据 交换 和 共 
享 ,而 且 各 个 应 用 之 间 由 于 涉及 开发 技术 和 环境 的 限制 也 为 企业 的 数据 共享 设置 了 障碍 ， 
阻碍 了 企业 各 个 应 用 之 间 和 数据 交换 和 共享 ,也 影响 了 企业 对 数据 可 控 \ 数 据 管理 ,数据 
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安全 方面 的 需求 。 为 实现 跨行 业 跨 部 门 的 数据 整合 ,尤其 是 在 智慧 城市 建设 中 ,需要 制定 
统一 的 数据 标准 、 交 换 接 口 以 及 共享 协议 ,这 样 不 同行 业 ,不 同 部 门 .不 同 格式 的 数据 才能 
基于 一 个 统一 的 基础 进行 访问 、 交 换 和 共享 。 通 过 实现 企业 数据 总 线 (EDS) ,可 以 提供 对 
企业 应 用 中 各 类 数据 的 存 取 功能 ,把 企业 数据 的 存 取 集成 与 企业 的 功能 集成 分 离开 来 。 

企业 数据 总 线 有 效 地 创建 了 一 层 数据 访问 抽象 层 ,使 业务 功能 避 开 企业 数据 访问 的 
细节 。 业 务 组 件 只 需 包 含 服务 功能 组 件 ( 用 于 实现 现 有 服务 功能 ) 和 数据 访问 组 件 ( 通 过 
使 用 企业 数据 总 线 的 方式 )。 通 过 企业 数据 总 线 这 种 方式 ,为 企业 的 管理 数据 模型 和 应 用 
系统 数据 模型 间 提供 了 一 个 统一 的 转换 接口 ,并 有 效 减少 了 各 应 用 服务 之 间 的 耦合 度 。 
在 大 数据 场景 下 ,企业 数据 总 线 上 会 存在 大 量 的 同步 的 数据 访问 请 求 ,总线 上 任何 一 个 模 
块 性 能 下 降 , 都 会 大 大 影响 总 线 功 能 ,因此 企业 数据 总 线 也 需要 采用 大 规模 并 发 式 、 具 备 
高 可 扩展 性 的 实现 方式 。 


3.2 数据 采集 来 源 


根据 MapReduce 产生 数据 的 应 用 系统 分 类 ,大 数据 的 采集 主要 有 四 种 来 源 : 管理 信 
息 系统 .Web 信息 系统 ,物理 信息 系统 、 科 学 实验 系统 。 

1. 管理 信息 系统 

管理 信息 系统 是 指 企 业 、 机 关内 部 的 信息 系统 ,如 事务 处 理 系 统 、 办 公 自 动 化 系统 , 主 
要 用 于 经 营 和 管理 ,为 特定 用 户 的 工作 和 业务 提供 支持 。 数 据 的 产生 既 有 终端 用 户 的 原 
始 输入 ,也 有 系统 的 二 次 加 工 处 理 。 系 统 的 组 织 结构 上 是 专用 的 ,数据 通常 是 结构 化 的 。 

2，Web 信息 系统 

Web 信息 系统 包括 互联 网 上 的 各 种 信息 系统 ,如 社交 网 站 、 社 会 媒体 、 搜 索引 擎 等 ， 
主要 用 于 构造 虚拟 的 信息 空间 ,为 广大 用 户 提 供 信息 服务 和 社交 服务 。 系 统 的 组 织 结构 
是 开放 式 的 ,大 部 分 数据 是 半 结 构 化 或 无 结构 的 。 数 据 的 产生 者 主要 是 在 线 用 户 。 电 子 
商务 .电子 政务 是 在 Web 上 运行 的 管理 信息 系统 。 


3, 物理 信息 系统 


物理 信息 系统 是 指 关 于 各 种 物理 对 象 和 物理 过 程 的 信息 系统 ,如 实时 监控 ,实时 检 
测 ,主要 用 于 生产 调度 .过程 控制 现场 指 挥 .环境 保护 等 。 系 统 的 组 织 结构 上 是 封闭 的 ， 
数据 由 各 种 嵌入 式 传 感 设 备 产生 的 ,可 以 是 关于 物理 、 化 学 .生物 等 性 质 和 状态 的 基本 测 
量 值 ,也 可 以 是 关于 行为 和 状态 的 音频 、 视 频 等 多 媒体 数据 。 

4. 科学 实验 系统 

科学 实验 系统 实际 上 也 属于 物理 信息 系统 ,但 其 实验 环境 是 预先 设 定 的 ,主要 用 于 研 
究 和 学 术 , 数 据 是 有 选择 的 .可 控 的 ,有 时 可 能 是 人 工 模拟 生成 的 仿真 数据 。 

在 物理 信息 系统 中 ,对 于 一 个 具体 的 物理 对 象 ,可 采用 不 同 观测 手段 ,对 其 不 同 的 属 
性 (方面 ) 进 行 测量 ,如 测量 一 辆 行驶 汽车 的 尺寸 .速度 、 路 线 、 尾 气 、 外 观 等 ,其 观测 结果 为 
具有 不 同形 式 的 数据 ,这 些 数据 代表 实体 不 同 的 模 态 , 称 为 多 模 态 (multi-modal)。 对 于 


和 


一 个 实体 的 多 模 态 原始 数据 ,需要 做 融合 处 理 (data fusion) 。 在 融合 处 理 中 ,需要 减少 误 
差 , 保 证 数据 的 完整 性 和 正确 性 。 在 高 级 的 做 入 式 系统 或 数据 采集 系统 中 ,通常 具有 数据 
质量 控制 和 数据 融合 处 理 功能 。 

从 人 -机 - 物 三 元 世界 观点 看 ,管理 信息 系统 和 Web 信息 系统 属于 人 与 计算 机 的 交互 
系统 ,物理 信息 系统 属于 物 与 计算 机 的 交互 系统 。 关 于 物理 世界 的 原始 数据 ,在 人 -机 系 
统 中 ,是 通过 人 实现 融合 处 理 的 ;而 在 物 -机 系统 中 ,需要 通过 计算 机 等 装置 做 专门 的 处 
理 。 融 合 处 理 后 的 数据 ,被 转换 为 规范 的 数据 结构 ,输入 并 存储 在 专门 的 数据 管理 系统 
中 ,如 文件 或 数据 库 ,形成 专门 的 数据 集 。 

对 于 不 同 的 数据 集 , 可 能 存在 不 同 的 结构 和 模式 ,如 文件 .XML 树 、 关 系 表 等 ,表现 
为 数据 的 异 构 性 (heterogeneity)。 对 多 个 异 构 的 数据 集 ,需要 做 进一步 集成 处 理 (data 
integration) 或 整合 处 理 (data consolidation) ,将 来 自 不 同 数据 集 的 数据 收集 整理、 清洗 ， 
转换 后 ,生成 到 一 个 新 的 数据 集 , 为 后 续 查 询 和 分 析 处 理 提供 统一 的 数据 视图 。 


3.3 大 数据 采集 方法 


3.3.1 大 数据 数据 采集 方面 新 方法 

1. 系统 日 志 采 集 方法 

很 多 互联 网 企业 都 有 自己 的 海量 数据 采集 工具 ,多 用 于 系统 日 志 采 集 , 如 Hadoop 的 
Chukwa Cloudera 的 Flume、Facebook 的 Scribe 等 ,这 些 工 具 均 采用 分 布 式 架构 ,能 满足 
每 秒 数 百 MB 的 日 志 数 据 采 集 和 传输 需求 。 

2. 网 络 数据 采集 方法 : 对 非 结构 化 数据 的 采集 

网 络 数据 采集 是 指 通过 网 络 怜 虫 或 网 站 公开 API 等 方式 从 网 站 上 获取 数据 信息 。 
该 方法 可 以 将 非 结 构 化 数据 从 网 页 中 抽取 出 来 ,将 其 存储 为 统一 的 本 地 数据 文件 ,并 以 结 
构 化 的 方式 存储 。 它 支持 图 片 音频、 视频 等 文件 或 附件 的 采集 ,附件 与 正文 可 以 自动 
关联 。 

除了 网 络 中 包含 的 内 容 之 外 ,对 于 网 络 流量 的 采集 可 以 使 用 DPI 或 DFI 等 带宽 管理 
技术 进行 处 理 。 

3. 其 他 数据 采集 方法 

对 于 企业 生产 经 营 数据 或 学 科研 究 数据 等 保密 性 要 求 较 高 的 数据 ,可 以 通过 与 企业 
或 研究 机 构 合作 ,使 用 特定 系统 接口 等 相关 方式 采集 数据 。 


3.3.2 网 页 数据 采集 方法 


互联 网 网 页 数据 具有 分 布 广 , 格 式 多 样 、 非 结构 化 等 大 数据 的 典型 特点 ,我 们 需要 有 
针对 性 地 对 互联 网 网 页 数据 进行 采集 、 转 换 、 加 工 和 存储 ,尤其 在 网 页 数据 的 采集 和 处 理 
方面 ,存在 吸 须 突破 的 若干 关键 技术 。 

传统 的 数据 挖掘 、 分 析 处 理 方法 和 工具 ,在 非 结构 化 高 速 化 的 大 数据 处 理 要 求 面前 
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显得 过 于 乏力 ,需要 创新 开发 适应 新 型 大 数据 处 理 需 求 的 数据 挖掘 和 数据 处 理 方法 。 

互联 网 网 页 数据 是 大 数据 领域 的 一 个 重要 组 成 部 分 ,是 互联 网 公司 和 金融 机 构 获 取 
用 户 消费 ,交易 .产品 评价 信息 以 及 其 他 社交 信息 等 数据 的 重要 途径 ,为 互联 网 和 金融 服 
务 创 新 提供 了 丰富 的 数据 基础 ,因此 ,对 互联 网 网 页 的 大 数据 处 理 流程 和 技术 进行 探索 具 
有 重要 意义 。 

1. 网 页 大 数据 采集 的 基本 流程 

互联 网 网 页 数据 采集 就 是 获取 互联 网 中 相关 网 页 内 容 的 过 程 ,并 从 中 抽取 出 用 户 所 
需要 的 属性 内 容 。 互 联网 网 页 数据 处 理 , 就 是 对 抽取 出 来 的 网 页 数据 进行 内 容 和 格式 上 
的 处 理 ,进行 转换 和 加 工 , 使 之 能 够 适应 用 户 的 需求 ,并 将 之 存储 下 来 ,以 供 后 用 。 

网 络 仆 虫 是 一 个 自动 提取 网 页 的 程序 , 它 为 搜索 引擎 从 万 维 网 上 下 载 网 页 ,是 搜索 引 
擎 的 重要 组 成 部 分 。 传 统 仆 虫 从 一 个 或 若干 初始 网 页 的 URL 开始 ,获得 初始 网 页 上 的 
URL, 在 抓 取 网 页 的 过 程 中 ,不 断 从 当前 页 面 上 抽取 新 的 URL 放 入 队列 ,直到 满足 系统 
的 一 定 停止 条 件 。 

聚焦 仆 虫 的 工作 流程 较为 复杂 ,需要 根据 一 定 的 网 页 分 析 算 法 过 滤 与 主题 无 关 的 链接 ， 
保留 有 用 的 链接 并 将 其 放 入 等 待 抓 取 的 URL 队列 。 然 后 , 它 将 根据 一 定 的 搜索 策略 从 队列 
中 选择 下 一 步 要 抓 取 的 网 页 URL, 并 重复 上 述 过 程 ,直到 达到 系统 的 某 一 条 件 时 停止 。 

另外 ,所 有 被 仆 虫 抓 取 的 网 页 将 会 被 系统 存储 ,进行 一 定 的 分 析 、 过 滤 , 并 建立 索引 ， 
以 便 之 后 的 查询 和 检索 ;对 于 聚焦 爬虫 来 说 ,这 一 过 程 所 得 到 的 分 析 结 果 还 可 能 对 以 后 的 
抓 取 过 程 给 出 反馈 和 指导 。 网 络 爬 虫 自动 提取 网 页 的 过 程 见 图 3. 1 。 

















3.1 网 络 疏 虫 自动 提取 网 页 的 过 程 


2. 网 页 数据 采集 工作 过 程 

1) 工作 过 程 描述 

采集 的 目的 就 是 把 对 方 网 站 上 网 页 中 的 某 块 文字 或 者 图 片 等 资源 下 载 到 自己 的 站 网 
上 ,这 个 过 程 需 要 做 如 下 配置 工作 : 下 载 网 页 配置 ,解析 网 页 配置 ,修正 结果 配置 ,数据 输 
出 配置 。 如 果 数 据 符 合 自 己 要 求 , 修 正 结 果 这 步 可 省 略 。 配 置 完毕 后 ,把 配置 形成 任务 
(任务 以 XML 格式 描述 ) ,采集 系统 按照 任务 的 描述 开始 工作 ,最 终 把 采集 到 的 结果 存储 
到 网 站 服务 器 上 。 
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2) 工作 流程 

整个 数据 采集 过 程 的 基本 步骤 如 下 : 

(1) 将 需要 抓 取 数 据 的 网 站 的 URL 信息 (Site URL) 写 入 URL Queue; 

(2) 仆 虫 从 URL 队列 中 获取 需要 抓 取 数据 的 网 站 的 Site URL 信息 ; 

(3) 获取 某 个 具体 网 站 的 网 页 内 容 ; 

(4) 从 网 页 内 容 中 抽取 出 该 网 站 正文 页 内 容 的 链接 地 址 ; 

(5) 从 数据 库 中 读 取 已 经 抓 取 过 内 容 的 网 页 地 址 (Spider URL); 

(6) 过 滤 URL。 将 当前 的 URL 和 已 经 抓 取 过 的 URL 进行 比较 ; 

(7) 如 果 该 网 页 地 址 没有 被 抓 取 过 , 则 将 该 地 址 写 入 (Spider URL) 数 据 库 ;如 果 该 地 
址 已 经 被 抓 取 过 , 则 放置 对 这 个 地 址 的 抓 取 操 作 ; 

(8) 获取 该 地 址 的 网 页 内 容 , 并 抽取 出 所 需 属性 的 内 容 值 ; 

(9) 将 抽取 的 网 页 内 容 写 人 数据 库 。 

数据 采集 工作 流程 图 如 图 3. 2 所 示 。 


采集 任务 定制 
(B/S 模式 ) 
(采集 服务 器 1..n) 
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网页 下 起 到 入 1 辣 页 下 吉本 疝 贡 下载 且 可 
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数据 抽取 进程 1 数据 抽取 进程 5 数据 抽取 进程 
采集 结果 数据 
a 1 Eu 














业务 数据 处 理 进程 芽 2 数据 库 方式 


3.2 数据 采集 工作 流程 图 
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相应 的 网 页 内 容 提 取 、 数 据 采集 与 数据 处 理 逻辑 如 图 3. 3 所 示 。 











用 户 手工 配置 有 采 
poe 保 友 规 则 | 各 和 信 和 到 据 库 “| _ 安 双人 任务 _/ XML 格式 的 
解析 规则 is 
读 取 采集 任务 
EL 
从 指定 的 网 站 下 载 网 页 网 页 候 虫 模块 








把 下 载 的 网 页 交 给 解析 模块 | 





网 页 解析 模块 
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数据 修正 插件 
把 优良 的 数据 块 交 给 输出 插件 
1 
数据 输出 插件 
把 数据 保存 到 本 地 
数据 存储 介质 
对 采集 到 的 数据 进行 利用 
这 部 分 不 属于 侵略 者 的 | 
部 分 ,可 以 根据 用 户 需 
求 ,进行 定制 开发 Ts 数据 应 用 




















3.3 网 页 内 容 提 取 、 数 据 采集 与 数据 处 理 逻 辑 


3.3.3 Web 信息 数据 自动 采集 


Web 可 以 说 是 目前 最 大 的 信息 系统 ,其 数据 具有 海量 .多样 , 异 构 .动态 变化 等 特性 。 
因此 人 们 要 准确 迅速 地 获得 自己 所 需要 的 数据 越 来 越 难 ,尽管 日 前 有 各 种 搜索 引擎 ,但 是 
搜索 引擎 在 数据 的 查 全 率 考虑 较 多 ,而 查 准 率 不 足 , 而 且 很 难 进一步 挖 扬 深 度数 据 。 因 此 
人 们 开始 研究 如 何 更 进一步 获取 互联 网 上 某 一 个 特定 范围 的 数据 ,从 信息 搜索 到 知识 
发 现 。 

1. Web 数据 自动 采集 相关 概念 


Web 数据 自动 采集 涉及 Web 数据 挖掘 (Web Data Mining)、Web 信息 检索 (Web 
Information Revival) ,信息 提取 (Information Extraction) ,搜索 引擎 (Search Engine) 等 概 
念 和 技术 。Web 数据 挖掘 与 这 些 概 念 密切 相关 ,但 又 有 所 区 别 。 

1) Web 数据 自动 采集 与 挖掘 

所 谓 Web 数据 自动 采集 与 挖掘 ,是 指 从 大 量 非 结构 化 . 异 构 的 Web 信息 资源 中 发 现 


下 


有 效 的 、 新 颖 的 、 潜 在 可 用 的 及 最 终 可 以 理解 的 知识 (包括 概念 、 模 式 、 规 则 、 规 律 、 约 束 及 
可 视 化 等 形式 ) 的 非 平凡 过 程 。 

2) Web 数据 自动 采集 与 搜索 引擎 

Web 数据 自动 采集 与 搜索 引擎 有 许多 相似 之 处 ,比如 它们 都 利用 了 信息 检索 的 技 
术 。 但 是 两 者 侧重 点 不 同 ,搜索 引擎 主要 由 网 络 疏 虫 (Web Scraper) ,索引 数据 库 和 查询 
服务 三 个 部 分 组 成 。 疏 虫 在 网 上 的 漫游 是 无 目的 性 的 ,只 是 尽量 发 现 比较 多 的 内 容 。 查 
询 服务 尽 可 能 多 地 返回 结果 ,但 不 关心 结果 是 否 符合 用 户 的 习惯 专业 背景 等 。 而 Web 数 
据 自动 采集 主要 针对 某 个 具体 行业 ,提供 面向 领域 ,个 性 化 的 信息 挖掘 服务 。 

3) Web 数据 自动 采集 与 信息 提取 

信息 提取 (Information Extraction) 是 近年 来 新 兴 的 一 个 概念 。 信 息 提 取 是 面向 不 断 
增长 和 变化 的 , 某 个 具体 领域 的 文献 特定 的 查询 ,这 种 查询 是 长 期 的 或 者 持续 的 。 与 传统 
搜索 引擎 是 基于 关键 字 查询 的 不 同 , 信 息 提取 基于 查询 。 不 仅 要 包含 关键 字 , 还 要 匹配 各 
个 实体 之 间 的 关系 。 信 息 提取 是 技术 上 的 概念 。Web 数据 自动 采集 很 大 程度 要 依赖 于 
信息 提取 的 技术 ,实现 长 期 的 ,动态 的 追踪 。 

4) Web 数据 自动 采集 与 Web 信息 检索 

信息 检索 即 从 大 量 的 Web 文献 集合 C 中 ,找到 与 给 定 查询 g 相关 的 ,数目 相当 的 文 
献 子 集 S。 如 果 将 g 看 作 输入 ,S 看 作 输 出 ,那么 Web 信息 检索 的 过 程 就 是 一 个 输入 到 输 
出 的 映像 

é€:(C: gq) 一 S3 
而 Web 数据 自动 采集 不 是 直接 将 Web 文献 集合 的 子 集 直 接 输 出 给 用 户 , 还 要 进一步 的 
分 析 处 理 , 查 重 去 噪 ,整合 数据 等 。 尽 量 将 半 结 构 化 甚至 非 结 构 化 的 数据 变 为 结构 化 的 数 
据 , 然 后 以 统一 的 格式 呈现 给 用 户 。 

因此 , Web 数据 自动 采集 是 Web 数据 挖掘 的 一 个 重要 组 成 部 分 , 它 利 用 了 Web 数据 
检索 ,信息 提取 的 技术 ,弥补 了 搜索 引擎 缺乏 针对 性 和 专业 性 ,不 能 实现 数据 的 动态 跟踪 
与 监测 的 缺点 ,是 一 个 非常 有 前 景 的 领域 。 

2. 数据 采集 的 关键 技术 一 一 链接 过 滤 

链接 过 滤 的 实质 就 是 判断 一 个 链接 (当前 链接 ) 是 不 是 在 一 个 链接 集合 (已 经 抓 
取 过 的 链接 ?里 面 。 在 对 网 页 大 数据 的 采集 中 ,可 以 采用 布 隆 过 滤器 来 实现 对 链接 
的 过 滤 。 

布 隆 过 滤器 (Bloom Filter) 的 基本 思想 是 : 当 一 个 元 素 被 加 入 集合 时 ,通过 K 个 散 列 
函数 将 这 个 元 素 映射 成 一 个 位 数组 中 的 个 点 ,把 它们 置 为 1。 检索 时 ,我 们 只 要 看 看 这 
些 点 是 不 是 都 是 1( 大 约 ) 就 知道 集合 中 有 没有 它 了 : 如 果 这 些 点 有 任何 一 个 0, 则 被 检 元 
素 一 定 不 在 ;如 果 都 是 1 , 则 被 检 元 素 很 可 能 在 。 

布 隆 过 滤器 在 空间 和 时 间 方 面 都 有 巨大 的 优势 : 

(1) 在 复杂 度 方面 , 布 隆 过 滤器 存储 空间 和 插入 /查询 时 间 都 是 常数 ( 即 复杂 度 
为 OC(k)); 

(2) 在 关系 方面 , 散 列 函数 相互 之 间 没 有 关联 关系 ,方便 由 硬件 并 行 实现 ; 
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(3) 在 存储 方面 , 布 隆 过 滤器 不 需要 存储 元 素 本 身 , 在 某 些 对 保密 要 求 非常 严格 的 场 
合 有 优势 。 

布 隆 过 滤器 的 具体 实现 方法 是 ,已 经 抓 取 过 的 每 个 URL, 经 过 上 个 hash 函数 的 计 
算 , 得 出 个 值 ,再 和 一 个 巨大 bit 数组 的 这 个 位置 的 元 素 对 应 起 来 (这 些 位 置 数组 元 素 
的 值 被 设置 为 1) 。 在 需要 判断 某 个 URL 是 否 被 抓 取 过 时 , 先 用 & 个 hash 函数 对 该 
URL 计算 出 & 个 值 ,然后 查询 巨大 的 bit 数组 内 这 个 位 置 上 的 值 ,如 果 全 为 1, 则 是 已 
经 被 抓 取 过 ,否则 没有 被 抓 取 过 。 

3，Web 引擎 和 通用 搜索 引擎 的 差别 

Web 结构 化 信息 抽取 就 是 将 网 页 中 的 非 结构 化 数据 按照 一 定 的 需求 抽取 成 结构 化 
数据 。 是 垂直 搜索 。 

Web 引擎 和 通用 搜索 引擎 比较 大 的 差别 ,例如 : 

(1) 比较 购物 搜索 需要 在 抓 取 网 页 后 ,对 网 页 中 的 商品 信息 进行 抽取 ,抽取 出 商品 名 
称 、 价 格 ,简介 …… 甚 至 可 以 进一步 将 笔记 本 简介 细 分 成 品牌 ,型 号 .CPU 内存、 硬 盘 、 


(2) 房产 信息 搜索 应 该 抽取 出 : 类 型 ,地域 . 地 址 .房型 .面积 ,装修 情况 、 租 金 .联系 
人 ,联系 电话 ,公司 企业 信息 搜索 应 该 抽取 出 : 公司 名 称 、 地 址 、 电 话 ,联系 人 。 

结构 化 信息 抽取 有 两 种 方式 可 以 实现 ,比较 简单 的 是 模板 方式 ,还 有 一 种 是 对 网 页 不 
依赖 的 网 页 库 级 的 结构 化 信息 抽取 方式 。 

(1) 模板 方式 。 

模板 方式 是 事先 对 特定 的 网 页 进行 配置 模板 ,抽取 模板 中 设置 好 的 需要 的 信息 ,可 以 
针对 有 限 个 网 站 的 信息 进行 精确 的 采集 。 

特点 : 简单 .精确 .技术 难度 低 方便 快速 部 署 。 

缺点 : 需要 针对 每 一 个 信息 源 的 网 站 模板 进行 单独 的 设 定 ,在 信息 源 多 样 性 的 情况 
下 维护 量 巨大 是 指 不 可 完成 的 维护 量 。 所 以 这 种 方式 适合 少量 信息 源 的 信息 处 理 , 不 是 
搜索 引擎 级 的 应 用 ,很 难 满足 用 户 对 查 全 率 的 需求 。 

(2) 网 页 库 级 的 结构 化 信息 抽取 方式 。 

网 页 库 结 构 化 信息 抽取 是 采用 页 面 结构 分 析 与 智能 结 点 分 析 转 换 的 方法 ,自动 抽取 
结构 化 的 数据 。 

特点 : 可 对 任意 的 正常 网 页 进行 抽取 ,完全 自动 化 ,不 用 对 具体 网 站 事先 生成 模板 ， 
对 每 个 网 页 自动 实时 得 生成 抽取 规则 ,完全 不 需要 人 工 干预 。 智 能 抽取 准确 率 高 ,不 是 机 
械 的 匹配 ,采用 智能 分 析 技 术 ,准确 率 能 达到 98% 以 上 。 能 保证 较 快 处 理 速 度 ,由 于 采用 
页 面 的 智能 分 析 技 术 , 先 去 除了 垃圾 块 ,降低 分 析 的 压力 ,使 处 理 速 度 大 大 提高 。 通 用 性 
较 好 ,易于 维护 ,只 需 设 定 参 数 .配置 相应 的 特征 就 能 改进 相应 的 抽取 性 能 ;一 般 的 非 专业 
人 员 经 过 简单 培训 就 能 维护 。 

缺点 : 技术 难度 高 ,前 期 研发 成 本 高 ,周期 长 。 适 合 网 页 库 级 别 结构 化 数据 采集 和 搜 
索 的 高 端 应 用 。 
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3.4 导入 / 预 处 理 


3.4.1 大 数据 导入 / 预 处 理 的 过 程 


大 数据 处 理 是 将 业务 系统 的 数据 经 过 抽取 清洗 转换 之 后 加 载 到 数据 仓库 的 过 程 , 目 
的 是 将 企业 中 的 分 散 、 零 乱 、 标 准 不 统一 的 数据 整合 到 一 起 ,为 企业 的 决策 提供 分 析 的 依 
据 。 数 据 抽取 ,清洗 与 转换 是 大 数据 处 理 最 重要 的 一 个 环节 ,通常 情况 下 会 花 掉 整 个 项 目 
的 1/3 的 时 间 。 

数据 的 抽取 是 从 各 个 不 同 的 数据 源 抽取 到 处 理 系统 中 ,在 抽取 的 过 程 中 需要 挑选 不 
同 的 抽取 方法 , 尽 可 能 提高 运行 效率 。 花 费时 间 最 长 的 是 清洗 .转换 的 部 分 ,一 般 情 况 下 
这 部 分 工作 量 是 整个 过 程 的 2/3。 数 据 的 加 载 一 般 在 数据 清洗 完 后 直接 写 入 数据 仓库 
中 去 。 

数据 抽取 清洗 与 转换 的 实现 有 多 种 方法 ,常用 的 有 三 种 : 第 一 种 是 借助 工具 如 
Oracle 的 OWB、SQL Server 2000 的 DTS、SQL Server 2005 的 SSIS 服务 等 实现 ;第 二 种 
是 SQL 方式 实现 ;第 三 种 是 工具 和 SQL 相 结 合 。 前 两 种 方法 各 有 优 缺 点 ,借助 工具 可 以 
快速 地 建立 起 工程 ,屏蔽 复杂 的 编码 任务 ,提高 速度 ,降低 难度 ,但 是 欠缺 灵活 性 。SQL 
的 方法 优点 是 灵活 ,提高 运行 效率 ,但 是 编码 复杂 ,对 技术 要 求 比 较 高 。 第 三 种 综合 了 前 
面 两 种 的 优点 , 极 大 地 提高 了 开发 速度 和 效率 。 

1. 数据 的 抽取 

数据 的 抽取 需要 在 调研 阶段 做 大 量 工作 ,首先 要 搞 清楚 以 下 几 个 问题 ; 数据 是 从 几 
个 业务 系统 中 来 ? 各 个 业务 系统 的 数据 库 服 务 器 运行 什么 数据 库 管 理 系统 (DBMS)? 是 
否 存 在 手工 数据 ?手工 数据 量 有 多 大 ? 是 否 存 在 非 结 构 化 的 数据 ? 等 等 类 似 问题 , 当 收 
集 完 这 些 信 息 之 后 才 可 以 进行 数据 抽取 的 设计 。 

1) 与 存放 数据 仓库 (Data Warehouse,DW) 的 数据 库 系 统 相 同 的 数据 源 处 理 方法 

这 一 类 数 源 在 设计 比较 容易 ,一 般 情况 下 ,DBMS( 包 括 SQL Server、Oracle) 都 会 提 
供 数据 库 链接 功能 ,在 DW 数据 库 服务 器 和 原 业务 系统 之 间 建 立 直接 的 链接 关系 就 可 以 
写 Select 语句 直接 访问 。 

2) 与 DW 数据 库 系 统 不 同 的 数据 源 的 处 理 方法 

这 一 类 数据 源 一 般 情 况 下 也 可 以 通过 ODBC 的 方式 建立 数据 库 链 接 , 如 SQL Server 
和 Oracle 之 间 。 如 果 不 能 建立 数据 库 链 接 , 可 以 通过 两 种 方式 完成 : 一 种 是 通过 工具 将 
源 数据 导出 成 . txt 或 者 是 . xls 文件 ,然后 再 将 这 些 源 系 统 文件 导入 到 ODS 中 ;另外 一 种 
方法 通过 程序 接口 来 完 

3) 对 于 文件 类 型 数据 源 (.txt、. xls) ,可 以 培训 业务 人 员 利 用 数据 库 工 具 将 这 些 数据 
导入 到 指定 的 数据 库 , 然 后 从 指定 的 数据 库 抽取 。 或 者 可 以 借助 工具 实现 ,如 SQL 
Server 2005 的 SSIS 服务 的 平面 数据 源 和 平面 目标 等 组 件 导 入 ODS 中 去 。 

4) 增 量 更 新 问题 

对 于 数据 量 大 的 系统 ,必须 考虑 增 量 抽取 。 一 般 情况 ,业务 系统 会 记录 业务 发 生 的 时 
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间 ,可 以 用 作 增 量 的 标志 ,每 次 抽取 之 前 首先 判断 ODS 中 记录 最 大 的 时 间 , 然 后 根据 这 个 
时 间 去 业务 系统 取出 大 于 这 个 时 间 的 所 有 记录 。 利 用 业务 系统 的 时 间 戳 ,一般 情 况 下 , 业 
务 系统 没有 或 者 部 分 有 时 间 戳 。 

2. 数据 的 清洗 转换 

一 般 情况 下 ,数据 仓库 分 为 ODS.DW 两 部 分 ,通常 的 做 法 是 从 业务 系统 到 ODS 做 
清洗 ,将 脏 数 据 和 不 完整 数据 过 滤 掉 ,再 从 ODS 到 DW 的 过 程 中 转换 ,进行 一 些 业务 规 
则 的 计算 和 聚合 。 

1) 数据 清洗 

数据 清洗 的 任务 是 过 滤 那 些 不 符合 要 求 的 数据 ,将 过 滤 的 结果 交 给 业务 主管 部 门 , 确 
认 是 否 过 滤 掉 还 是 由 业务 单位 修正 之 后 再 进行 抽取 。 不 符合 要 求 的 数据 主要 是 有 不 完整 
的 数据 、 错 误 的 数据 和 重复 的 数据 三 大 类 。 

(1) 不 完整 的 数据 。 

其 特征 是 一 些 应 该 有 的 信息 缺失 ,如 供应 商 的 名 称 、 分 公司 的 名 称 、 客 户 的 区 域 信息 
缺失 ,业务 系统 中 主 表 与 明细 表 不 能 匹配 等 。 需 要 将 这 一 类 数据 过 滤 出 来 , 按 缺 失 的 内 容 
分 别 写 入 不 同 Excel 文件 向 客户 提交 ,要 求 在 规定 的 时 间 内 补 全 , 补 全 后 才 写 人 数据 
仓库 。 

(2) 错误 的 数据 。 

其 产生 原因 是 业务 系统 不 够 健全 ,在 接收 输入 后 没有 进行 判断 就 直接 写 和 人 后台 
数据 库 造 成 的 ,比如 数值 数据 输 成 全 角 数 字 字符 、 字 符 串 数据 后 面 有 一 个 回 车 .日 期 
格式 不 正确 .日 期 越界 等 。 这 一 类 数据 也 要 分 类 ,对 于 类 似 于 全 角 字 符 、 数 据 前 后 有 
不 面 见 字符 的 问题 只 能 以 SQL 的 方式 找 出 来 ,然后 要 求 客户 在 业务 系统 修正 之 后 抽 
取 ; 日 期 格式 不 正确 的 或 者 是 日 期 越界 的 这 一 类 错误 会 导致 ETL 运行 失败 ,这 一 类 
错误 需要 去 业务 系统 数据 库 用 SQL 的 方式 挑 出 来 , 交 给 业务 主管 部 门 要 求 限期 修 
正 , 修 正之 后 再 抽取 。 

(3) 重复 的 数据 。 

在 维度 表 中 比较 常见 ,将 重复 的 数据 的 记录 所 有 字段 导出 来 ,让 客户 确认 并 整理 。 

数据 清洗 是 一 个 反复 的 过 程 ,不 可 能 在 几 天 内 完成 ,只 有 不 断 地 发 现 问题 ,解决 问题 。 
对 于 是 否 过 滤 .是 否 修正 一 般 要 求 客户 确认 ;对 于 过 滤 掉 的 数据 , 写 和 人 Excel 文件 或 者 将 
过 滤 数 据 写 人 数据 表 , 在 ETL 开发 的 初期 可 以 每 天 向 业务 单位 发 送 过 滤 数 据 的 邮件 , 促 
使 他 们 尽快 修正 错误 ,同时 也 可 以 作为 将 来 验证 数据 的 依据 。 数 据 清洗 需要 注意 的 是 不 
要 将 有 用 的 数据 过 滤 掉 了 ,对 于 每 个 过 滤 规 则 认真 进行 验证 ,并 要 用 户 确认 才 行 。 

2) 数据 转换 

数据 转换 的 任务 主要 是 进行 不 一 致 的 数据 转换 数据 粒度 的 转换 和 一 些 商务 规则 的 
计算 。 

(1) 不 一 致 数据 转换 

这 个 过 程 是 一 个 整合 的 过 程 ,将 不 同业 务 系统 的 相同 类 型 的 数据 统一 ,比如 同一 个 供 
应 商 在 结算 系统 的 编码 是 XX0001 ,而 在 CRM 中 编码 是 YY0001, 这 样 在 抽取 过 来 之 后 
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统一 转换 成 一 个 编码 。 

(2) 数据 粒度 的 转换 

业务 系统 一 般 存 储 非常 明细 的 数据 ,而 数据 仓库 中 的 数据 是 用 来 分 析 的 ,不 需要 非常 
明细 的 数据 ,一 般 情况 下 ,会 将 业务 系统 数据 按照 数据 仓库 粒度 进行 聚合 。 

(3) 商务 规则 的 计算 

不 同 的 企业 有 不 同 的 业务 规则 和 不 同 的 数据 指标 ,这 些 指标 有 的 时 候 不 是 简单 的 加 
加 减 减 就 能 完成 ,这 个 时 候 需 要 在 ETL 中 将 这 些 数据 指标 计算 好 了 之 后 存储 在 数据 仓库 
中 , 供 分 析 使 用 。 


3.4.2 数据 清洗 


科研 工作 者 .工程师 .业务 分 析 者 都 要 和 数据 打交道 ,数据 分 析 在 他 们 的 工作 中 是 一 
项 核心 任务 。 这 么 不 仅仅 针对 “大 数据 ”的 从 业者 ,即使 是 你 笔记 本 硬盘 上 的 数据 也 值得 
分 析 。 数 据 分 析 的 第 一 步 是 洗 数据 ,原始 数据 可 能 有 各 种 不 同 的 来 源 , 包 括 : 

(1) Web 服务 器 的 日 志 。 

(2) 某 种 科学 仪器 的 输出 结果 。 

(3) 在 线 调查 问卷 的 导出 结果 。 

(4) 政府 数据 。 

(5) 企业 顾问 准备 的 报告 。 

在 理想 世界 中 ,所 有 记录 都 应 该 是 整整 齐 齐 的 格式 ,并 且 遵 循 某 种 简洁 的 内 在 结构 。 
但 是 实际 中 可 不 是 这 样 。 所 有 这 些 数据 的 共同 点 是 : 你 绝对 料想 不 到 它们 的 各 种 怪异 的 
格式 。 数 据 给 你 了 , 那 就 要 处 理 , 但 这 些 数据 可 能 经 常 是 : 

(1) 不 完整 的 ( 某 些 记 录 的 某 些 字段 缺失 ) 。 

(2) 前 后 不 一 致 (字段 名 和 结构 前 后 不 一 )。 

(3) 数据 损坏 (有 些 记录 可 能 会 因为 种 种 原因 被 破坏 )。 

因此 ,你 必须 经 常 维护 你 的 清洗 程序 来 清洗 这 些 原始 数据 ,把 它们 转化 成 易于 分 析 的 
格式 ,通常 称 为 数据 清洗 (data wrangling)。 接 下 来 会 介绍 一 些 关 于 如 何 有 效 清洗 数据 ， 
所 有 介绍 的 内 容 都 可 以 由 任意 编程 语言 实现 。 

1. 不 符合 要 求 的 数据 

数据 清洗 从 名 字 上 也 看 得 出 就 是 把 * 脏 ”的 “ 洗 掉 ”。 因 为 数据 仓库 中 的 数据 是 面向 某 
一 主题 的 数据 的 集合 ,这 些 数据 从 多 个 业务 系统 中 抽取 而 来 而 且 包 含 历史 数据 ,这 样 就 避 
免不了 有 的 数据 是 错误 数据 ,有 的 数据 相互 之 间 有 冲突 ,这 些 错误 的 或 有 冲突 的 数据 显然 
是 我 们 不 想 要 的 , 称 为 脏 数据 *”。 我 们 要 按照 一 定 的 规则 把 “ 脏 数据 ”“ 洗 掉 ”, 这 就 是 数据 
清洗 。 而 数据 清洗 的 任务 是 过 滤 那 些 不 符合 要 求 的 数据 ,将 过 滤 的 结果 交 给 业务 主管 部 
门 ,确认 是 否 过 滤 掉 还 是 由 业务 单位 修正 之 后 再 进行 抽取 。 

不 符合 要 求 的 数据 主要 是 有 不 完整 的 数据 .错误 的 数据 .重复 的 数据 三 大 类 ， 
见 3.4.1 节 所 述 。 

2. 数据 清洗 


洗 数据 的 程序 肯定 会 经 常 衣 溃 。 这 很 好 ,因为 每 一 次 骨 溃 都 意味 着 你 这 些 糟糕 的 数 


第 3 章 大 数据 采集 与 预 处 理 


据 又 跟 你 最 初 的 假设 相悖 了 。 反 复 地 改进 你 的 断言 直到 能 成 功 走 通 。 但 一 定 要 尽 可 能 让 
其 保持 严格 ,不 要 太 宽 松 ,要 不 然 可 能 达 不 到 你 要 的 效果 。 最 坏 的 情况 不 是 程序 走 不 通 ， 
而 是 走出 来 不 是 你 要 的 结果 。 

以 下 是 一 些 数据 清洗 的 经 验 。 

1) 不 要 默默 地 跳 过 记录 

原始 数据 中 有 些 记录 是 不 完整 或 者 损坏 的 ,所 以 洗 数据 的 程序 只 能 跳 过 。 默 默 地 跳 
过 这 些 记录 不 是 最 好 的 办 法 ,因为 你 不 知道 什么 数据 遗漏 了 。 因 此 ,这 样 做 更 好 : 

(1) 打印 出 warning 提示 信息 ,这 样 你 就 能 够 过 后 再 去 寻找 什么 地 方 出 错 了 。 

(2) 记录 总 共 跳 过 了 多 少 记录 ,成 功 清洗 了 多 少 记录 。 这 样 做 能 够 让 你 对 原始 数据 
的 质量 有 个 大 致 的 感觉 ,比如 ,如 果 只 跳 过 了 0. 5%, 这 还 说 得 过 去 ;但 是 如 果 跳 过 了 
35% , 那 就 该 看 看 这 些 数 据 或 者 代码 存在 什么 问题 了 。 

2) 使 用 Set 或 者 Counter 把 变量 的 类 别 以 及 类 别 出 现 的 频次 存储 起 来 

数据 中 经 常 有 些 字段 是 枚 举 类 型 的 。 例 如 ,血型 只 能 是 A.B、AB 或 者 O0。 用 断言 来 
限定 血型 只 能 是 这 4 种 之 一 虽然 挺 好 ,但 是 如 果 某 个 类 别 包含 多 种 可 能 的 值 ,尤其 是 当 有 
的 值 你 可 能 始 料 未 及 的 话 , 就 不 能 用 断言 了 。 这 时 候 , 采 用 counter 这 种 数据 结构 来 存储 
就 会 比较 好 用 。 这 样 做 你 就 可 以 : 

(1) 对 于 某 个 类 别 , 假 如 碰 到 了 始 料 未 及 的 新 取 值 时 ,就 能 够 打印 一 条 消息 提醒 你 
= 
(2) 洗 完 数据 之 后 供 你 反 过 头 来 检查 。 例 如 ,假如 有 人 把 血型 误 填 成 C, 那 回 过 头 来 
就 能 轻松 发 现 了 。 

3) 断 点 清洗 

如 果 你 有 大 量 的 原始 数据 需要 清洗 ,要 一 次 清洗 完 可 能 需要 很 久 , 有 可 能 是 5 分 钟 、 
10 分 钟 一 小 时 ,其 至 是 几 天 。 实 际 当 中 ,经 常 在 洗 到 一 半 的 时 候 突然 崩溃 了 。 

假设 你 有 100 万 条 记录 ,你 的 清洗 程序 在 第 325 392 条 因为 某 些 异常 崩溃 了 ,你 修改 
了 这 个 bug, 然 后 重新 清洗 ,这 样 的 话 ,程序 就 得 重新 从 1 清洗 到 325 391, 这 是 在 做 无 用 
功 。 其 实 可 以 这 么 做 : 

第 一 步 ,让 你 的 清洗 程序 打印 出 来 当前 在 清洗 第 几 条 ,这 样 ,如果 崩 溃 了 ,你 就 能 知道 
处 理 到 哪 条 时 崩溃 了 。 

第 二 步 ,让 你 的 程序 支持 在 断 点 处 开始 清洗 ,这 样 当 重 新 清洗 时 ,你 就 能 从 325 392 
条 直接 开始 。 重 洗 的 代码 有 可 能 会 再 次 崩溃 ,你 只 要 再 次 修正 bug, 然 后 从 再 次 崩溃 的 记 
录 开 始 就 行 了 。 

当 所 有 记录 都 清洗 结束 之 后 ,再 重新 清洗 一 遍 , 因 为 后 来 修改 bug 后 的 代码 可 能 会 
对 之 前 的 记录 的 清洗 带 来 一 些 变 化 ,两 次 清洗 保证 万 无 一 失 。 但 总 的 来 说 ,设置 断 点 能 够 
节省 很 多 时 间 , 尤 其 是 当 你 在 debug 的 时 候 。 

4) 在 一 部 分 数据 上 进行 测试 

不 要 尝试 一 次 性 清洗 所 有 数据 。 当 你 刚 开始 写 清洗 代码 和 debug 的 时 候 ,在 一 个 规 
模 较 小 的 子 集 上 进行 测试 ,然后 扩大 测试 的 这 个 子 集 再 测试 。 这 样 做 的 目的 是 能 够 让 清 
洗 程 序 很 快 完成 测试 集 上 的 清洗 ,例如 几 秒 ,这 样 会 节省 你 反复 测试 的 时 间 。 
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但 是 要 注意 ,这 样 做 的 话 , 用 于 测试 的 子 集 往往 不 能 涵盖 到 一 些 特别 记录 。 

5) 把 清洗 日 志 打印 到 文件 中 

当 运 行 清洗 程序 时 ,把 清洗 日 志和 错误 提示 都 打印 到 文件 当中 ,这样 就 能 轻松 使 用 文 
本 编辑 器 来 查看 它们 了 。 

6) 可 选 : 把 原始 数据 一 并 存储 下 来 

当 你 不 用 担心 存储 空间 的 时 候 ,这 一 条 经 验 还 是 很 有 用 的 。 这 样 做 能 够 让 原始 数据 
作为 一 个 字段 保存 在 清洗 后 的 数据 当中 ,在 清洗 完 之 后 ,如 果 你 发 现 哪 条 记录 不 对 了 ,就 
能 够 直接 看 到 原始 数据 长 什么 样子 ,方便 你 解决 问题 Cdebug) 。 

不 过 ,这 样 做 的 坏处 就 是 需要 消耗 双 倍 的 存储 空间 ,并 且 让 某 些 清洗 操作 变 得 更 慢 。 
所 以 这 一 条 只 适用 于 效率 允许 的 情况 下 。 

7) 最 后 一 点 ,验证 清洗 后 的 数据 

记得 写 一 个 验证 程序 来 验证 清洗 后 得 到 的 干净 数据 是 否 跟 预 期 的 格式 一 致 。 你 不 能 
控制 原始 数据 的 格式 ,但 是 能 够 控制 干净 数据 的 格式 。 所 以 ,一 定 要 确保 干净 数据 的 格式 
是 符合 你 预期 的 格式 的 。 

这 一 点 其 实 是 非常 重要 的 ,因为 完成 了 数据 清洗 之 后 , 接 下 来 就 会 直接 在 这 些 干净 数 
据 上 进行 下 一 步 工作 了 。 因 此 ,在 你 开始 数据 分 析 之 前 要 确保 数据 是 足够 干净 的 。 否 则 ， 
你 可 能 会 得 到 错误 的 分 析 结果 ,到 那 时 候 , 就 很 难 再 发 现 很 久之 前 的 数据 清洗 过 程 中 犯 的 
错 了 。 


3.4.3 数据 采集 (ETL) 技 术 


随 着 信息 化 进程 的 推进 ,人 们 对 数据 资源 整合 的 需求 越 来 越 明 显 。 但 面 对 分 散在 不 
同 地 区 种 类 繁多 的 异 构 数据 库 进行 数据 整合 并 非 易 事 , 要 解决 宛 余 、 歧 义 等 脏 数据 的 清 
洗 问题 , 仅 靠 手工 进行 不 但 费时 费力 ,质量 也 难以 保证 ;另外 ,数据 的 定期 更 新 也 存在 困 
难 。 如 何 实现 业务 系统 数据 整合 ,是 摆 在 大 数据 面前 的 难题 。ETL 数据 转换 系统 为 数据 
整合 提供 了 可 靠 的 解决 方案 。 

ETL 是 Extraction-Transformation-Loading 的 缩写 ,中 文 名 称 为 数据 提取 、 转 换 和 
加 载 。ETL 负责 将 分 布 的 . 异 构 数 据 源 中 的 数据 如 关系 数据 .平面 数据 文件 等 抽取 到 临 
时 中 间 层 后 进行 清洗 、 转 换 、 集 成 ,最 后 加 载 到 数据 仓库 或 数据 集 市 中 ,成 为 联机 分 析 处 
理 ,数据 挖掘 的 基础 。 它 可 以 批量 完成 数据 抽取 、 清 洗 、 转 换 、 装 载 等 任务 ,不 但 满足 了 人 
们 对 种 类 繁多 的 异 构 数据 库 进行 整合 的 需求 ,同时 可 以 通过 增 量 方式 进行 数据 的 后 期 
更 新 。 

ETL 体系 结构 体现 了 主流 ETL 产品 的 主要 组 成 部 分 ,其 体系 结构 如 图 3.4 所 示 。 

ETL 过 程 中 的 主要 环节 就 是 数据 抽取 ,数据 转换 和 加 工 、 数 据 装载 。 为 了 实现 这 些 
功能 ,各 个 ETL 工具 一 般 会 进行 一 些 功能 上 的 扩充 ,例如 工作 流 、 调 度 引 擎 .规则 引擎 . 脚 
本 支持 、 统 计 信息 等 。 


1. 数据 抽取 
数据 抽取 是 从 数据 源 中 抽取 数据 的 过 程 。 实 际 应 用 中 ,不 管 数据 源 采 用 的 是 传统 关 
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系数 据 库 还 是 新 兴 的 NoSQL 数据 库 ,数据 抽取 一 般 有 以 下 几 种 方式 。 

1) 全 量 抽取 

全 量 抽取 指 的 是 ETL 在 集成 端 进行 数据 的 初始 化 时 ,首先 由 业务 人 员 或 相关 的 操作 
人 员 定 义 抽取 策略 , 选 定 抽取 字段 和 定义 规则 后 ,由 设计 人 员 进 行程 序 设 计 ; 将 数据 进行 
处 理 后 ,直接 读 取 整 个 工作 表 中 的 数据 作为 抽取 的 内 容 , 类 似 于 数据 迁移 ,是 ETL 过 程 中 
最 简单 的 步骤 ,其 简单 性 使 其 主要 适用 于 处 理 一 些 对 用 户 非常 重要 的 数据 表 。 

2) 增 量 抽取 

增 量 抽取 主要 发 生 在 全 量 抽取 之 后 。 全 量 抽取 之 后 ,对 上 次 抽取 过 的 数据 源 表 中 新 
增 的 或 被 修改 的 数据 进行 抽取 , 称 为 增 量 抽取 。 增 量 抽取 可 以 减少 对 抽取 过 程 中 的 数据 
量 ,提高 抽取 速度 和 效率 ,减少 网 络 流量 ,同时 , 增 量 抽取 的 实现 ,对 异 构 数 据 源 和 数据 库 
中 数据 的 变化 有 个 准确 的 把 握 。 信 息 抽取 不 是 仅仅 从 大 量 的 文献 集 或 数据 集中 找 出 适合 
用 户 需 要 的 那 篇 文献 或 部 分 内 容 ,而 是 抽取 出 真正 适合 用 户 需要 的 相关 信息 片段 ,提供 给 
用 户 ,并 找 出 这 些 信 息 与 原文 献 直接 的 参考 对 照 。 

2. 数据 转换 和 加 工 


从 数据 源 中 抽取 的 数据 不 一 定 完 全 满足 目的 库 的 要 求 , 例 如 数据 格式 的 不 一 臻 .数据 
输入 错误 .数据 不 完整 等 等 ,还 要 对 抽取 出 的 数据 进行 数据 转换 和 加 工 。 

数据 转换 是 真正 将 源 数据 库 中 的 数据 转换 为 目标 数据 的 关键 步骤 ,在 这 个 过 程 中 , 通 
过 对 数据 的 合并 、 汇 总 ,过 滤 以 及 重新 格式 化 和 再 计算 等 ,从 而 将 操作 型 数据 库 中 的 异 构 
数据 转换 成 用 户 所 需要 的 形式 。 数 据 的 转换 和 加 工 可 以 在 ETL 引擎 中 进行 ,也 可 以 在 数 
据 抽取 过 程 中 利用 数据 库 的 特性 同时 进行 。 

1) ETL 引擎 中 的 数据 转换 和 加 工 

ETL 引擎 中 一 般 以 组 件 化 的 方式 实现 数据 转换 。 常 用 的 数据 转换 组 件 有 字段 映射 、 
数据 过 滤 .数据 清洗 .数据 替换 数据 计算 .数据 验证 ,数据 加 解密 、 数 据 合 并 .数据 拆 分 等 。 
这 些 组 件 如 同一 条 流水 线 上 的 一 道道 工序 ,它们 是 可 插 拔 的 , 且 可 以 任意 组 装 ,各 组 件 之 
间 通 过 数据 总 线 共享 数据 。 有 些 ETL 工具 还 提供 了 脚本 支持 ,使 得 用 户 可 以 以 一 种 编程 


上 


的 方式 定制 数据 的 转换 和 加 工行 为 。 

2) 在 数据 库 中 进行 数据 加 工 

关系 数据 库 本 身 已 经 提供 了 强大 的 SQL 、 函 数 来 支持 数据 的 加 工 ,如 在 SQL 查询 语 
句 中 添加 where 条 件 进行 过 滤 查询 中 重 命名 字段 名 与 目的 表 进 行 映射 ,使 用 case 条 件 
判断 等 等 。 相 比 在 ETL 引擎 中 进行 数据 转换 和 加 工 , 直 接 在 SQL 语句 中 进行 转换 和 加 
工 更 加 简单 清晰 ,性 能 更 高 。 对 于 SQL 语句 无 法 处 理 的 可 以 交 由 ETL 引擎 处 理 。 


3. 数据 装载 


将 转换 和 加 工 后 的 数据 装载 到 目的 库 中 通常 是 ETL 过 程 的 最 后 步 又。 装载 数据 的 
最 佳 方法 取决 于 所 执行 操作 的 类 型 以 及 需要 装 人 多 少数 据 。 当 目的 库 是 关系 数据 库 时 ， 
一 般 来 说 有 两 种 装载 方式 。 

1) SQL 装载 

直接 SQL 语句 进行 insert\update delete 操作 。 

2) 采用 批量 装载 方法 

如 bcp .bulk ,关系 数据 库 特 有 的 批量 装载 工具 或 API。 

大 多 数 情况 下 会 使 用 第 一 种 方法 ,因为 它们 进行 了 日 志 记录 并 且 是 可 恢复 的 。 但 是 ， 
批量 装载 操作 易于 使 用 ,并 且 在 装 和 大量 数据 时 效率 较 高 。 使 用 哪 种 数据 装载 方法 取决 
于 业务 系统 的 需要 。 


3.4.4 基于 大 数据 的 数据 预 处 理 


毫 无 疑问 ,数据 预 处 理 在 整个 数据 挖掘 流程 中 有 非常 重要 的 地 位 ,可 以 说 60% 甚 至 
更 多 的 时 间 和 资源 都 花费 在 数据 预 处 理 上 了 。 

传统 背景 下 数据 预 处 理 更 多 的 是 对 数据 库 的 清洗 ,可 能 是 MySQL Oracle 之 类 的 数 
据 , 这 些 数 据 有 着 比较 固定 的 模式 ,数据 维度 也 不 是 很 多 ,而 且 每 一 维度 的 数据 类 型 ( 离 
散 .连续 数值 .类 标 ) 以 及 包含 的 信息 都 能 很 明确 。 

而 大 数据 背景 下 的 数据 预 处 理 更 倾向 于 对 数据 仓库 的 清洗 ,首先 数据 都 是 异 源 (各 种 
数据 来 源 ) ,这 个 要 统一 起 来 就 有 大 的 工作 量 ;其 次 数据 可 能 没有 固定 的 结构 ,或 者 称 为 非 
结构 化 数据 ,比如 文本 ;第 三 ,就 是 所 谓 的 数据 量 大 ,大 到 单机 程序 或 者 小 的 分 布 式 集群 无 
法 在 给 定时 间 范 围 内 处 理 完毕 ;第 四 ,就 是 数据 量 太 大 导致 很 多 有 用 的 信息 被 噪声 淹没 ， 
甚至 都 不 知道 这 些 数据 能 干什么 ,分 不 清 主 次 ! 

1. 为 什么 要 预 处 理 数据 

(1) 现实 世界 的 数据 是 “ 脏 脏 ”的 (不 完整 . 含 噪声 \ 不 一 致 ) 。 

(2) 没有 高 质量 的 数据 ,就 没有 高 质量 的 挖掘 结果 (高 质量 的 决策 必须 依赖 于 高 质量 
的 数据 ;数据 仓库 需要 对 高 质量 的 数据 进行 一 致 地 集成 ) 。 

(3) 原始 数据 中 存在 的 问题 包括 存在 不 一 致 ( 数据 内 含 出 现 不 一 致 情况 ) 、 重 复 .不 
完整 (没有 感 兴趣 的 属性 ) 、 含 噪声 (数据 中 存在 着 错误 ) 、 高 维度 或 异常 (偏离 期 望 值 ) 的 
数据 。 
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2. 数据 预 处 理 的 方法 


(1) 数据 清洗 一 一 去 噪声 和 无 关 数据 ; 

(2) 数据 集成 一 一 将 多 个 数据 源 中 的 数据 结合 起 来 存放 在 一 个 一 致 的 数据 存储 中 ; 

(3) 数据 变换 一 一 把 原始 数据 转换 成 为 适合 数据 挖掘 的 形式 ; 

(4) 数据 规约 一 一 主要 方法 包括 数据 立方 体 聚 集 .维度 归 约 数据 压缩 ,数值 归 约 、 离 
散 化 和 概念 分 层 等 。 

3. 数据 选取 参考 原则 

(1) 尽 可 能 赋予 属性 名 和 属性 值 明确 的 含义 。 

(2) 统一 多 数据 源 的 属性 编码 。 

(3) 去 除 唯一 属性 。 

(4) 去 除 重复 属性 。 

(5) 去 除 可 忽略 字段 。 

(6) 合理 选择 关联 字段 。 

(7) 进一步 处 理 : 通过 填补 遗漏 数据 、 消 除 异 党 数据, 平滑 噪 声 数据 ,以 及 纠正 不 一 
致 数据 ,去 掉 数 据 中 的 噪音 ,填充 空 值 .丢失 值 和 处 理 不 一 致 数据 。 

4. 数据 预 处 理 的 知识 要 点 

数据 预 处 理 相关 的 知识 要 点 .能 力 要 求 和 相关 知识 点 见 表 3. 1。 


表 3.1 数据 预 处 理 的 知识 要 点 


知识 要 点 能 力 要 求 相关 知识 点 


(1) 数据 的 一 致 性 问题 
(2) 数据 的 噪音 问题 
(3) 原始 数据 的 不 完整 和 高 维度 问题 


(1) 掌握 数据 清洗 的 主要 任务 和 常用 方法 | (1) 数据 清洗 
数据 预 处 理 的 | (2) 掌握 数据 集成 的 主要 任务 和 常用 方法 | (2) 数据 集成 
方法 (3) 掌握 数据 变换 的 主要 任务 和 常用 方法 | (3) 数据 变换 
(4) 掌握 数据 规约 的 主要 任务 和 常用 方法 | (4) 数据 规约 





数据 预 处 理 的 | (1) 了 解 原始 数据 存在 的 主要 问题 
原因 (2) 明白 数据 预 处 理 的 作用 和 工作 任务 











5. 数据 清洗 的 过 程 

(1) 读 取 数据 。 

(2) 和 数据 提供 者 讨论 咨询 。 

(3) 数据 分 析 ( 借 助 可 视 化 工具 发 现 脏 数据 )。 

(4) 清洗 脏 数据 (借助 Matlab 或 者 Java/C++ 语言 ) 。 

(5) 再 次 统计 分 析 ( 最 大 值 最 小 值 .中 位 数 、 平 均值 方差 等 以 及 散 点 图 )。 
(6) 再 次 发 现 脏 数据 或 者 与 实验 无 关 的 数据 (去 除 ) 。 

(7) 最 后 实验 分 析 。 

(8) 社会 实例 验证 。 


大 政 所 技术 及 应 用 教程 


3.4.5 数据 处 理 的 基本 流程 与 关键 技术 


1. 数据 处 理 的 整体 框架 
数据 处 理 主 要 包括 四 个 模块 : 分 词 (Words Analyze) 、 排 重 (Content Deduplicate) 、 整 





合 (Integrate) 和 数据 。 
这 四 个 模块 的 主要 功能 如 下 : 
。 分词 一 一 对 抓 取 到 的 网 页 内 容 进行 切 词 处 理 。 


。 排 重 一 一 对 众多 的 网 页 内 容 进 行 排 重 。 

。 整合 一 一 对 不 同 来 源 的 数据 内 容 进行 格式 上 的 整合 。 

。 数据 一 一 包含 两 方面 的 数据 ,Spider Data( 扑 虫 从 网 页 中 抽取 出 来 的 数据 ) 和 Dp 

Data( 在 整个 数据 处 理 过 程 中 产生 的 数据 )。 

2. 数据 处 理 的 基本 流程 

整个 数据 处 理 过 程 的 基本 步骤 如 下 : 

(1) 对 抓 取 来 的 网 页 内 容 进行 分 词 ; 

(2) 将 分 词 处 理 的 结果 写 人 数据 库 ; 

(3) 对 抓 取 来 的 网 页 内 容 进 行 排 重 ， 

(4) 将 排 重 处 理 后 的 数据 写 人 数据 库 ; 

(5) 根据 之 前 的 处 理 结果 ,对 数据 进行 整合 ; 

(6) 将 整合 后 的 结果 写 人 数据 库 。 

3. 数据 处 理 的 关键 技术 一 一 排 重 

排 重 就 是 排除 掉 与 主题 相 重 复 项 的 过 程 ,网 页 排 重 就 是 通过 两 个 网 页 之 间 的 相似 度 
来 排除 重复 项 。Simhash 算法 是 一 种 高 效 的 海量 文本 排 重 算法 , 相 比 于 余弦 角 欧式 距 
离 Jaccard 相似 系数 等 算法 ,Simhash 避免 了 对 文本 两 两 进行 相似 度 比 较 的 复杂 方式 ,从 
而 大 大 提高 了 效率 。 

采用 Simhash 算法 来 进行 抓 取 网 页 内 容 的 排 重 ,可 以 容纳 更 大 的 数据 量 ,提供 更 快 
的 数据 处 理 速度 ,实现 大 数据 的 快速 处 理 。 图 3. 5 是 Simhash 的 算法 思路 。 

Simhash 
feature,weight hash,weight 
mi WwW = 一 100110 wi cy WJ-WI-WI WI WI-WI 


1 1 1 
1 1 1 
Doc, m2 1- 
1 1 1 
1 1 1 


EVA， 一 一 001001 W, = -WWiWs Wn WaWn 


add | 
sign 


110001 “和 一 一 一 13,108,22,5,32,55 
fingerprint 


图 3.5 Simhash 的 算法 思路 
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Simhash 算法 的 基本 思想 描述 如 下 : 

输入 为 一 个 N 维 向 量 V, 比 如 文本 的 特征 向 量 ,每 个 特征 具有 一 定 权 重 。 输 出 是 一 
个 C 位 的 二 进 制 签名 S。 

(1) 初始 化 一 个 C 维 向 量 Q 为 0,C 位 的 二 进 制 签名 S 为 0。 

(2) 对 向 量 V 中 的 每 一 个 特征 ,使 用 传统 的 Hash 算法 计算 出 一 个 C 位 的 散 列 值 互 。 
对 1<i<C, 如 果 理 的 第 i 位 为 1, 则 Q 的 第 i 个 元 素 加 上 该 特征 的 权重 ;否则 ,Q 的 
第 i 个 元 素 减 去 该 特征 的 权重 。 

(3) 如 果 Q 的 第 i 个 元 素 大 于 0, 则 S 的 第 i 位 为 1; 和 否则 为 0。 

(4) 返回 签名 S。 

对 每 篇 文档 根据 SimHtash 算出 签名 后 ,再 计算 两 个 签名 的 海 明 距 离 ( 两 个 二 进 制 异 
或 后 1 的 个 数 ) 即 可 。 根 据 经 验 值 ,对 64 位 的 SimHash, 海 明 距离 在 3 以 内 的 可 以 认为 相 
似 度 比较 高 。 

4. 数据 处 理 的 关键 技术 一 一 整合 

整合 就 是 把 抓 取 来 的 网 页 内 容 与 各 个 公司 之 间 建 立 对 应 关系 。 对 于 每 一 个 公司 来 
说 ,可 以 用 一 组 关键 词 来 对 该 公司 进行 描述 ,同样 的 ,经 过 DP 处 理 之 后 的 网 页 内 容 , 也 可 
以 用 一 组 关键 词 来 进行 描述 。 因 此 ,整合 就 变 成 了 两 组 关键 词 (公司 关键 词 和 内 容 关键 
词 ) 之 间 的 匹配 。 

对 于 网 页 内 容 的 分 词 结果 来 说 ,存在 着 两 个 特点 : 

(1) 分 词 结果 的 数量 很 大 ; 

(2) 大 多 数 的 分 词 对 描述 该 网 页 内 容 来 说 是 没有 贡献 的 。 

因此 ,对 网 页 的 分 词 结果 进行 一 下 简化 ,使 用 词 频 最 高 的 若干 个 词汇 来 描述 该 网 页 
内 容 。 
经 过 简化 之 后 ,两 组 关键 词 的 匹配 效率 就 得 到 了 很 大 的 提升 ,同时 准确 度 也 得 到 了 保 
障 ;经 过 整合 之 后 , 抓 取 来 的 网 页 内 容 与 公司 之 间 就 建立 了 一 个 对 应 关系 ,就 能 知道 某 个 
具体 的 公司 有 着 怎样 的 数据 了 。 


3.5 数据 集成 


数据 集成 的 目的 是 运用 一 定 的 技术 手段 将 各 个 独立 系统 中 的 数据 按 一 定 规则 组 织 成 
为 一 个 整体 ,使 得 其 他 系统 或 者 用 户 能 够 有 效 地 对 数据 进行 访问 。 数 据 集成 是 现 有 企业 
应 用 集成 解决 方案 中 最 普遍 的 一 种 形式 。 数 据 处 于 各 种 应 用 系统 的 中 心 , 大 部 分 的 传统 
应 用 都 是 以 数据 驱动 的 方式 进行 开发 。 之 所 以 进行 数据 集成 ,是 因为 数据 分 散在 众多 具 
有 不 同 格 式 和 接口 的 系统 中 ,系统 之 间 互 不 关联 ,所 包含 的 不 同 内 容 之 间 互 不 相通 。 因 此 
需要 一 种 能 够 轻松 访问 特定 异 构 数据 库 数据 的 能 力 。 


3.5.1 数据 集成 的 概念 
数据 集成 是 指 将 不 同 应 用 系统 ,不同 数据 形式 ,在 原 应 用 系统 不 做 任何 改变 的 条 件 


人 


下 ,进行 数据 采集 、 转 换 和 存储 的 数据 整合 过 程 。 
3.5.2 数据 集成 面临 问题 


在 信息 系统 建设 过 程 中 ,由 于 受 各 子 业 务 系统 建设 中 具体 业务 要 求 和 实施 本 业务 
管理 系统 的 阶段 性 .技术 性 以 及 其 他 经 济 和 人 为 因素 等 因素 影响 ,导致 在 发 展 过 程 中 
积累 了 大 量 采 用 不 同 存储 方式 的 业务 数据 。 包 括 所 采用 的 数据 管理 系统 也 大 不 相同 ， 
从 简单 的 文件 数据 库 到 复杂 的 关系 型 数据 库 , 它 们 构成 了 企业 的 异 构 数 据 源 。 异 构 数 
据 源 集成 是 数据 库 领域 的 经 典 问题 ,在 构建 异 构 数据 源 集成 系统 时 ,主要 会 面 对 以 下 
几 方 面 的 问题 。 

1. 异 构 性 


异 构 性 是 异 构 数据 集成 必须 面临 的 首要 问题 ,其 主要 表现 在 两 个 方面 。 

1) 系统 异 构 

数据 源 所 依赖 的 应 用 系统 、 数 据 库 管 理 系 统 乃 至 操作 系统 之 间 的 不 同 构 成 了 系统 
异 构 。 

2) 模式 异 构 

数据 源 在 存储 模式 上 的 不 同 。 一 般 的 存储 模式 包括 关系 模式 、 对 象 模式 .对象 关系 模 
式 和 文档 模式 等 几 种 ,其 中 关系 模式 为 主流 存储 模式 。 需 要 指出 的 是 ,即便 是 同一 类 存储 
模式 ,它们 的 模式 结构 可 能 也 存在 着 差异 。 例 如 同 为 关系 型 数据 库 ,Oracle 所 采用 的 数 
据 类 型 与 SQL Server 所 采用 的 数据 类 型 并 不 是 完全 一 致 的 。 

2. 完整 性 

1) 异 构 数据 

源 数据 集成 的 目的 是 为 应 用 提供 统一 的 访问 支持 。 为 了 满足 各 种 应 用 处 理 ( 包 括 发 
布 ) 数 据 的 条 件 , 集 成 后 的 数据 必须 保证 的 完整 性 ,包括 数据 完整 性 和 数据 集成 的 方法 及 
技术 。 

2) 数据 集成 

数据 集成 是 指 将 不 同 应 用 系统 、 不 同 数据 形式 ,在 原 应 用 系统 不 做 任何 改变 的 条 件 
下 ,进行 数据 采集 、 转 换 和 存储 的 数据 整合 过 程 。 在 企业 数据 集成 领域 ,已 经 有 了 很 多 成 
熟 的 框架 可 以 利用 。 目 前 通常 采用 基于 中 间 件 模型 和 数据 仓库 等 方法 来 构造 集成 的 系 
统 , 这 些 技术 在 不 同 的 着 重点 和 应 用 上 解决 数据 共享 和 为 企业 提供 决策 支持 。 

面 对 以 上 几 方 面 问题 ,产生 了 相关 的 数据 变换 技术 和 数据 集成 技术 。 


3.6 数据 变换 


自 计算 机 诞生 以 来 ,人 类 积累 了 丰富 的 数据 资源 。 计 算 机 网 络 的 普及 ,使 得 数据 资源 
的 共享 成 为 一 个 热门 话题 。 然 而 ,由 于 时 间 和 空间 上 的 差异 ,人 们 使 用 的 数据 源 各 不 相 
同 ,各 信息 系统 的 数据 类 型 数据 访问 方式 等 也 都 千差万别 。 这 就 导致 各 数据 源 、 系 统 之 
间 不 能 高 效 地 进行 数据 交换 与 共享 ,成 为 “信息 孤岛 ”。 
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用 户 在 具体 应 用 时 ,往往 又 需要 将 分 散 的 数据 按 某 种 需要 进行 交换 ,以 便 了 解 整体 情 
况 。 如 ,跨国 公司 的 销售 数据 是 分 散 存 放 在 不 同 的 子 公 司 数据 库 中 ,为 了 解 整 个 公司 的 销 
售 情况 , 则 需要 将 所 有 子 系统 的 数据 集中 起 来 。 为 了 满足 一 些 特定 需要 ,如 数据 仓库 、 数 
据 挖掘 等 ,也 需要 将 分 散 的 数据 交换 集中 起 来 ,以 达到 数据 的 统一 和 标准 化 。 异 构 数据 的 
交换 问题 由 此 产生 ,受到 越 来 越 多 人 的 重视 。 

用 户 在 进行 数据 交换 时 , 面 对 的 数据 是 千差万别 的 。 产 生 数据 差异 的 主要 原因 是 数 
据 的 结构 和 语义 上 的 冲突 。 异 构 数据 不 仅 指 不 同 的 数据 库 系 统 之 间 的 异 构 , 如 Oracle 和 
SQL Server 数据 库 , 还 包括 不 同 结构 数据 之 间 的 异 构 , 如 结构 化 的 数据 库 数据 和 半 结 构 
化 的 数据 。 源 数据 可 以 是 关系 型 的 ,也 可 以 是 对 象 型 的 ,更 可 以 是 Web 页 面 型 和 文本 型 
的 。 因 而 ,要 解决 数据 交换 问题 ,一 个 重要 的 问题 就 是 如 何 消除 这 种 差异 。 随 着 数据 的 大 
量 产 生 , 数 据 之 间 的 结构 和 语义 冲突 问题 更 加 严重 ,如 何 有 效 解决 各 种 冲突 问题 是 数据 交 
换 面临 的 一 大 挑战 。 

异 构 数据 交换 问题 解决 后 , 才 会 对 其 他 诸如 OLAP、OLTP、 数 据 仓库 .数据 挖 掘 \ 移 
动 计算 等 提供 数据 基础 。 对 一 些 应 用 ,如 数据 仓库 的 建立 , 异 构 数据 交换 可 以 说 是 生死 似 
关 。 数 据 交换 质量 的 好 坏 直 接 影响 在 交换 后 数据 上 其 他 应 用 能 否 有 效 进 行 。 数 据 交换 
后 ,可 以 减 小 由 于 数据 在 存储 位 置 上 分 布 造成 的 数据 存 取 开销 ;避免 不 同 数据 在 结构 和 语 
义 上 差异 造成 的 数据 转换 引起 的 错误 ;数据 存放 更 为 精简 有 效 ,避免 存 取 不 需要 的 数据 ， 
向 用 户 提供 一 个 统一 的 数据 界面 等 。 因 此 ,数据 交换 对 信息 化 管理 的 发 展 意义 重大 。 


3.6.1 异 构 数据 交换 综述 


异 构 数 据 交 换 技术 的 研究 始 于 20 世纪 70 年 代 中 期 ,至 今 已 有 四 十 多 年 了 。 数 据 库 
的 异 构 问题 已 经 引起 了 各 数据 库 厂家 及 许多 数据 库 专 家 的 注意 。 各 数据 库 厂商 积极 参与 
国际 标准 的 制定 ,他 们 新 推出 的 产品 都 能 支持 统一 的 数据 库 语 言 .FAP 和 API 标准 。 其 
产品 有 的 还 留 有 支持 新 标准 的 余地 ,有 的 则 采用 了 便于 向 国际 标准 过 渡 的 形式 。 经 过 十 
几 年 对 异 构 数 据 问题 的 探索 和 研究 ,人 们 已 取得 了 不 少 成 果 ,提出 了 许多 解决 异 构 数 据 交 
换 的 策略 及 方法 ,但 就 其 本 质 可 分 成 四 类 。 

1. 使 用 软件 工具 进行 转换 

一 般 情况 下 ,数据库 管理 系统 都 提供 将 外 部 文件 中 的 数据 转移 到 本 身 数据 库 表 中 的 
数据 装 入 工具 。 比 如 Oracle 提供 的 将 外 部 文本 文件 中 的 数据 转移 到 Oracle 数据 库 表 的 
数据 装 入 工具 SQL Loader, Powersoft 公司 的 PowerBuilder 中 提供 的 数据 管道 (Data 
Pipeline) 。 

这 些 数据 转移 工具 可 以 以 多 种 灵活 的 方式 进行 数据 转换 , 而且 由 于 它们 是 数据 库 管 
理 系统 本 身 所 附带 的 工具 ,执行 速度 快 ,不 需要 ODBC 支持 ,在 机 器 没有 安装 ODBC 的 情 
况 下 也 可 以 方便 地 使 用 。 

但 是 ,使 用 这 些 数 据 转换 工具 的 缺点 是 它们 不 是 独立 的 软件 产品 ,必须 首先 运行 该 数 
据 库 产品 的 前 端 程序 才能 运行 相应 的 数据 转换 工具 ,通常 需要 几 步 才能 完成 , 且 多 用 手工 
方式 进行 转换 。 如 果 目 的 数据 库 不 是 数据 转换 工具 所 对 应 的 数据 库 , 数 据 转换 工具 就 不 


i 


能 再 使 用 。 

2. 利用 中 间 数 据 库 的 转换 

由 于 缺少 工具 软件 的 支持 ,在 开发 系统 时 可 使 用 中间 数据 库 ” 的 办 法 , 即 在 实现 两 个 
具体 数据 库 之 间 的 转换 时 ,依据 关系 定义 ,字段 定义 ,从 源 数 据 库 中 读 出 数据 通过 中 间 数 
据 库 “ 灌 ”入 到 目的 数据 库 中 。 

这 种 利用 中 间 数 据 库 的 转换 办 法 ,所 需 转换 模块 少 , 且 扩 展 性 强 ; 但 缺点 是 在 实现 过 
程 中 比较 复杂 ,转换 质量 不 高 ,转换 过 程 长 。 

3. 设置 传送 变量 的 转换 

借助 数据 库 应 用 程序 开发 工具 与 数据 库 连 接 的 强大 功能 ,通过 设置 源 数据 库 与 目的 
数据 库 两 个 不 同 的 传送 变量 ,同时 连接 两 个 数据 库 ,实现 异 构 数据 库 之 间 的 直接 转换 。 这 
种 办 法 在 现 有 的 数据 库 系 统 下 扩展 比较 容易 ,其 转换 速度 和 质量 大 大 提高 。 

4. 通过 开发 数据 库 组 件 的 转换 

利用 Java 等 数据 库 应 用 程序 开发 技术 ,通过 源 数据 库 与 目的 数据 库 组 件 来 存 取 数 据 
信息 ,实现 异 构 数据 库 之 间 的 直接 转换 。 通 过 组 件 存 取 数 据 , 关 键 是 数据 信息 的 类 型 问 
题 , 若 源 数据 库 与 目的 数据 库 对 应 的 数据 类 型 不 相同 ,必须 先进 行 类 型 的 转化 ,然后 双方 
才能 进行 赋值 。 

异 构 数据 交换 问题 ,实质 上 就 是 : 一 个 应 用 的 数据 可 能 要 重新 构造 ,才能 和 男 一 个 应 
用 的 数据 结构 匹配 ,然后 被 写 进 男 一 个 数据 库 。 它 是 数据 集成 的 一 个 方面 ,也 可 以 说 是 数 
据 集成 众多 表现 形式 中 的 一 种 。 


3.6.2 异 构 数据 分 析 


异 构 数据 交换 的 目标 在 于 实现 不 同 数据 之 间 的 数据 信息 资源 、 设 备 资源 、 人 力 资源 的 
合并 和 共享 。 因 此 ,分 析 异 构 数据 , 搞 清楚 异 构 数 据 的 特点 ,把握 住 异 构 数 据 交换 过 程 中 
的 核心 问题 ,是 十 分 必要 的 。 这 样 研究 工作 就 可 以 做 到 有 的 放 矢 。 

1. 异 构 数 据 

数据 的 异 构 性 导致 了 应 用 对 于 数据 交换 的 需求 。 那 么 何谓 异 构 数 据 ? 异 构 数据 是 一 
个 含义 丰富 的 概念 , 它 是 指 涉及 同一 类 型 但 在 处 理 方法 上 存在 各 种 差异 的 数据 ,在 内 容 
上 ,不 仅 可 以 指 不 同 的 数据 库 系 统 之 间 的 数据 是 异 构 的 (如 Oracle 和 SQL Server 数据 库 
中 的 数据 ) ;而 且 可 以 指 不 同 结构 的 数据 之 间 的 异 构 ( 如 结构 化 的 SQL Server 数据 库 数据 
和 半 结 构 化 的 XML 数据 ) 。 

总 的 来 说 ,数据 的 异 构 性 可 以 包括 以 下 三 个 方面 : 系统 异 构 、 数 据 模型 异 构 和 逮 辑 


异 构 。 

1) 系统 异 构 

系统 异 构 是 指 硬 件 平台 操作 系统 、 并 发 控制 ,访问 方式 和 通信 和 能力 等 的 不 同 ,具体 细 
分 如 下 : 


(1) 计算 机 体系 结构 的 不 同 , 即 数据 可 以 分 别 存在 于 大 型 机 、 小 型 机 、 工 作 站 、PC 或 
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肉 入 式 系统 中 。 

(2) 操作 系统 的 不 同 , 即 数据 的 操作 系统 可 以 是 Microsoft Windows、Windows NT、 
各 种 版 本 的 UNIX、IBM OS/2、Macintosh 等 。 

(3) 开发 语言 的 不 同 ,比如 C、C++ 、Java、Delphi 等 。 

(4) 网 络 平台 的 不 同 ,比如 Ethernet、FDDI、.ATM、TCP/IP、IPX\SPX 等 。 

2) 数据 模型 异 构 

数据 模型 异 构 则 是 指 DBMS 本 身 的 不 同 。 比 如 数据 交换 系统 可 以 采用 同 为 关系 数 
据 库 系统 的 Oracle、SQL Server 等 作为 数据 模型 ,也 可 以 采用 不 同类 型 的 数据 库 系 
统一 一 关系 、 层 次 、 网 络 、 面 向 对 象 或 函数 型 数据 库 等 。 

3) 逻辑 异 构 

逻辑 异 构 则 包括 命名 异 构 、 值 异 构 .语义 异 构 和 模式 异 构 等 。 比 如 语义 的 异 构 具 体 表 
现在 相同 的 数据 形式 表示 不 同 的 语义 ,或 者 同一 语义 由 不 同形 式 的 数据 表示 。 

以 上 这 些 构成 了 数据 的 异 构 性 ,数据 的 异 构 给 行业 单位 和 部 门 等 的 信息 化 管理 以 及 
决策 分 析 带 来 了 极 大 的 不 便 。 因 此 异 构 数据 交换 是 否 迅 速 , 快 捷 、 可 靠 就 成 了 行业 ,单位 
和 部 门 制约 信息 化 建设 的 一 个 瓶颈 。 

2, 冲突 分 类 

异 构 数据 之 间 进 行 数据 交换 的 过 程 中 ,要 想 实 现 严 格 的 等 价 交 换 是 比较 困难 的 。 主 
要 原因 是 由 于 异 构 数据 模型 间 存 在 着 结构 和 语义 的 各 种 冲突 ,这 些 冲突 主要 包括 : 

。 命名 冲突 一 一 即 源 模型 中 的 标识 符 可 能 是 目的 模型 中 的 保留 字 , 这 时 就 需要 重新 

命名 。 
。 格式 冲突 同一 种 数据 类 型 可 能 有 不 同 的 表示 方法 和 语义 差异 ,这 时 需要 定义 
两 种 模型 之 间 的 变换 函数 。 

。 结构 冲突 一 一 如 果 两 种 数据 库 系统 之 间 的 数据 定义 模型 不 同 , 如 分 别 为 关系 模 
型 和 层次 模型 ,那么 需要 重新 定义 实体 属性 和 联系 ,以 防止 属性 或 联系 信息 的 
丢失 。 

由 于 目前 主要 研究 的 是 关系 型 数据 模型 间 的 数据 交换 问题 ,根据 解决 问题 的 需要 ,可 
将 上 述 三 大 类 冲突 再 次 抽象 划分 为 两 大 冲突 : 结构 冲突 和 语义 冲突 。 结 构 冲 突 是 指 需 要 
交换 的 源 数据 和 目标 数据 之 间 在 数据 项 构成 的 结构 上 的 差异 。 语 义 冲突 是 指 属性 在 数据 
类 型 单位 .长度 .精度 等 方面 的 冲突 。 对 数据 交换 中 需要 解决 的 主要 冲突 ,可 做 如 下 
分 类 : 

1) 结构 冲突 

结构 冲突 可 分 为 两 种 情况 : 相似 结构 冲突 和 异 构 结构 冲突 。 相 似 结构 是 指 源 和 目标 
模式 在 表 内 部 构成 上 相似 , 异 构 则 与 之 相反 。 

(1) 相似 结构 冲突。 

表 相 似 结 构 冲 突 : 如 果 两 个 表 , 表 中 的 属性 数量 不 同 , 但 一 个 表 的 某 些 属性 能 够 同 另 
一 个 表 某 些 属性 对 应 ,这 时 在 这 两 个 表 之 间 产 生 了 表 结 构 冲 突 。 

此 时 ,两 表 在 属性 集 上 发 生 不 一 致 性 ,表现 为 属性 数量 上 的 差异 ,但 两 表 之 间 其 他 属 
性 能 够 相互 对 应 。 其 解决 的 方法 一 般 为 减少 多 余 的 属性 或 增加 缺失 的 属性 。 
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源 和 目标 表 中 的 属性 之 间 存在 以 下 两 种 情况 : 

@ 源 表 的 某 些 属性 可 以 通过 合并 构成 目标 表 的 一 个 属性 ; 

@ 源 表 的 一 个 属性 经 过 分 裂 成 为 目标 表 的 几 个 属性 。 

此 时 , 源 表 和 目标 表 产 生 了 属性 结构 上 的 冲突 。 例 如 源 表 存 在 Fname 和 Iname 两 个 
属性 ,而 目标 表 只 有 Name 属性 ,但 Name 属性 由 Fname 和 Iname 属性 构成 ; 则 在 源 表 的 
Fname、Iname 属性 和 目标 表 的 Name 属性 之 间 产 生 属性 结构 冲突 。 其 解决 的 方法 为 在 
对 应 的 冲突 属性 之 间 进 行 合 并 或 分 裂 操作 。 

(2) 异 构 结构 冲突 。 

异 构 结构 冲突 可 分 为 值 -属性 冲突 、 值 - 表 冲 突 、 属 性 - 值 冲突 , 表 - 值 冲突 等 。 以 表 3. 2 
中 几 个 表 为 例 来 说 明 表 之 间 的 异 构 结 构 冲 突 。 

表 3.2 异 构 结 构 冲 突 示 例 




















Dalian Yantai Qingdao 

Date Number Date Number Date Number 
31/10/03 10012 31/10/03 5983 31/10/03 78934 
31/11/03 10091 31/11/03 9832 31/11/03 78965 


港口 统计 表 (table_Value_port) 











Date Dalian Yantai Qingdao 
31/10/03 10012 5983 78934 
31/11/03 10091 9832 78965 








总 公司 统计 表 (table_Value_company) 




















Date Number Company 
31/10/03 10012 Dalian 
31/11/03 10091 Dalian 
31/10/03 5983 Shenyang 
31/11/03 9832 Shenyang 
31/10/03 78934 Qingdao 
31/11/03 78965 Qingdao 








其 中 Dalian( 大 连 )、Yantai( 烟 台 )、Qingdao( 青 岛 ) 三 个 表 表示 位 于 三 地 的 子 港务 公 
司 每 月 的 集装箱 出 口 数量 表 , 表 Table_value_port 是 港口 集装箱 出 口 统计 表 , 而 表 Table 
_value_company 是 总 公司 的 集装箱 出 口 数量 统计 表 , 它 是 由 Dalian、Yantai、 Qingdao。 
三 个 表 中 的 数据 经 过 数据 交换 后 得 到 的 。 

属性 - 值 冲突 : 如 果 相 同 的 信息 在 一 个 表 中 被 表示 为 属性 的 名 称 而 在 另 一 个 表 中 被 
表示 为 属性 的 值 时 , 则 产生 了 属性 - 值 冲 突 。 

如 总 公司 统计 表 (Table_Value_company) 中 Company 属性 的 某 个 值 (如 Dalian) 在 
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利润 表 (Table_value_port) 表 中 成 为 一 个 属性 的 名 称 。 

表 - 值 冲突 : 当 数 据 库 中 表 的 某 个 属性 值 被 表示 为 一 个 表 的 名 字 时 , 则 产生 了 表 - 值 冲 
突 。 如 总 公司 统计 表 (Table_value_Companys) 中 Company 属性 的 某 个 值 (如 Yantai) 成 
为 表 Yantai 的 名 称 。 

对 异 构 的 情况 ,比较 常见 的 转换 为 “ 表 ” 到 “ 值 ” 的 转换 和 “属性 ”到 “ 值 ”的 转换 。 

对 “ 值 ”到 “ 表 ”,“ 值 ”到 “属性 ”,“ 属 性 ”到 “ 表 ”,“ 表 ”到 “属性 ”的 转换 ,由 于 实际 数据 交 
换 中 ,目标 系统 表 结 构 很 少 采 用 这 种 设计 方式 ,因而 研究 重点 是 “ 表 ” 到 “ 值 ”"“ 属 性 ”到 
“ 值 ”两 种 异 构 情 况 的 转换 。 

2) 语义 冲突 

语义 冲突 主要 分 为 两 种 情况 : 表 的 语义 冲突 和 属性 语义 冲突 。 表 的 语义 冲突 是 指 具 
有 相同 标识 符 的 表 语义 不 同 。 属 性 语义 冲突 是 指 属性 的 数据 类 型 .单位 ,格式 等 的 冲突 。 

(1) 表 的 语义 冲突 。 

表 的 语义 冲突 是 指 具有 相同 或 相似 结构 的 两 个 表 在 语义 上 的 差异 。 如 一 个 表 为 所 有 
员工 的 工资 ,而 另 一 个 结构 相同 的 表 则 为 某 个 部 门 员工 的 工资 。 对 相同 的 结构 ,只 需要 将 
所 有 源 表 数据 合并 到 目标 表 或 将 源 表 水 平分 割 为 各 个 目标 表 即 可 。 

(2) 属性 语义 冲突 。 

数据 类 型 冲突 : 同一 属性 的 数据 在 不 同 表 中 的 数据 类 型 不 一 致 。 如 年 龄 在 一 个 表 中 
为 字符 型 而 在 另 一 个 表 中 为 数值 型 。 其 解决 办 法 为 将 一 种 数据 类 型 转化 为 另 一 种 数据 
类 型 。 

命名 冲突 : 表示 同一 概念 的 属性 在 不 同 表 中 命名 不 一 样 。 如 ,一 个 表 中 用 Company 
属性 表示 公司 ,在 另 一 个 表 中 用 Corporation 属性 表示 公司 ,对 应 的 属性 在 命名 上 有 差 
异 。 解 决 的 办 法 是 统一 属性 的 命名 。 

单位 冲突 : 同一 属性 在 不 同 表 中 ,其 值 的 单位 不 一 样 。 如 ,一 个 表 中 身高 以 米 为 单 
位 , 另 一 个 表 中 用 厘米 为 单位 。 此 时 ,对 应 属性 在 度量 单位 上 有 差异 。 解 决 办 法 是 统一 
单位 。 

数据 长 度 冲突 : 属性 值 的 长 度 不 一 样 。 

数据 精度 冲突 : 同一 属性 的 值 在 不 同 表 中 的 数据 精度 不 一 样 。 如 ,一 个 表 中 工资 什 
为 100. 89 ,在 另 一 个 表 中 为 100.9。 解 决 办 法 是 进行 精度 转换 。 

数据 格式 冲突 : 同一 属性 的 值 在 不 同 表 中 的 表现 格式 不 一 样 。 最 典型 的 例子 如 日 
期 ,一 个 表 中 为 “MM/DD/YY” 格 式 , 在 另 一 个 表 中 为 YYY/MM/DD”。 此 时 ,对 应 属性 在 
数据 格式 上 出 现 差异 。 解 决 的 办 法 是 统一 数据 的 表现 格式 。 

其 他 情况 : 这 类 情况 比较 特殊 ,如 物理 运动 的 测量 是 由 于 参照 物 选择 不 同 引 起 的 测 
量 值 的 差异 。 可 根据 实际 交换 时 的 情况 进行 分 析 。 

总 之 ,在 进行 数据 转换 时 ,一 方面 源 数据 模式 中 所 有 需要 共享 的 信息 都 转换 到 目标 数 
据 中 , 另 一 方面 这 种 转换 又 不 能 包含 元 余 的 关联 信息 。 


3.6.3 异 构 数据 交换 方式 
异 构 数 据 交换 就 是 实现 分 布 式 网 络 环境 下 ,不同 位置 .平台 和 格式 的 数据 以 一 种 统一 
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的 交换 标准 集中 展现 给 用 户 ,并 可 以 进行 数据 资源 的 抽取 和 利用 。 

异 构 数 据 存放 于 异 构 数据 库 中 , 异 构 数据 库 的 各 个 组 成 部 分 具有 自治 性 和 数据 库 管 
理 系统 ,实现 数据 共享 的 同时 又 保持 自己 的 应 用 特性 、 完 整 性 控制 和 安全 性 控制 ,确保 基 
于 异种 系统 平台 实现 对 异 构 数据 库 的 查询 和 联合 使 用 。 

提供 一 个 独立 于 特定 的 数据 库 管理 系统 的 统一 编程 界面 。 异 构 数 据 库 系 统 是 相关 的 
多 个 数据 库 系统 的 集合 ,目标 在 于 实现 不 同 数据 库 之 间 的 资源 的 合并 和 共享 ,为 应 用 系统 
提供 安全 的 ,统一 的 ,快捷 的 信息 查询 .数据 挖掘 和 决策 支持 服务 。 

异 构 数据 库 系统 的 数据 交换 主要 是 为 了 消除 异 构 数据 之 间 的 冲突 ,通过 一 些 设备 在 
不 同 的 应 用 平台 和 操作 系统 之 间 使 交换 数据 的 双方 可 以 实现 彼此 之 间 的 透明 访问 和 各 系 
统 间 的 数据 共享 .业务 协同 ,从 而 解决 了 信息 孤岛 问题 。 

异 构 数据 交换 方式 主要 分 为 数据 发 布 .数据 集成 和 交易 自动 化 。 

1. 异 构 数据 的 发 布 


异 构 数据 的 发 布 指 的 是 将 异 构 数 据 库 中 的 数据 根据 用 户 设 定 的 条 件 及 提取 出 来 的 日 
标 信息 ,按照 数据 请 求 者 要 求 的 .可 以 接受 的 格式 发 送出 去 。 

2. 异 构 数 据 的 集成 

异 构 数据 的 集成 指 的 是 根据 用 户 设 定 的 条 件 及 提取 出 来 的 日 标 信息 将 异 构 数 据 源 集 
成 起 来 并 且 提 供给 用 户 一 个 统一 的 视图 (物理 的 .逻辑 的 )。 蜡 构 数 据 的 集成 屏 项 了 数据 
源 的 异 构 性 。 可 以 使 应 用 程序 以 统一 的 方式 对 不 同 分 布 的 、 结 构 异 构 的 数据 源 进行 访问 ， 
可 以 为 这 些 数据 源 提供 实时 的 读 写 操作 ,也 可 以 完成 各 个 业务 模块 之 间 的 数据 共享 ,从 而 
畅通 无 阻 地 实现 彼此 之 间 的 通信 ,进而 理 顺 业务 操作 过 程 。 

异 构 数据 集成 体系 结构 主要 有 三 种 : 联邦 数据 库 、.Mediator/ Wrapper 模式 以 及 数据 
友 库 。 

1) 联邦 数据 库 

联邦 数据 库 系统 是 实现 数据 库 集成 问题 的 一 种 传统 方法 ,是 在 任何 两 种 异 构 数据 源 
之 间 建 立 起 彼此 互相 转化 的 方式 。 这 种 模式 的 数据 集成 是 个 N 维 问题 ,假设 存在 N 个 
彼此 异 构 的 数据 库 系统 ,并 且 任 意 两 个 之 间 要 实现 彼此 转换 , 则 需要 实现 的 转换 模式 总 和 
为 T=N(N 一 1)。 因 此 ,使 用 这 种 方式 时 ,开发 人 员 要 编写 N(N 一 1) 段 代码 来 实现 两 两 
之 间 的 彼此 共享 。 

2) Mediator/ Wrapper 模式 

Mediator/ Wrapper 模式 是 一 种 软件 构件 。 通 过 为 所 有 异 构 数据 源 提供 一 个 统一 的 
虚拟 视图 的 方式 来 实现 集成 目 。 这 种 集成 方式 并 不 需要 存储 任何 实际 数据 ,只 需要 系统 
为 用 户 提 供 一 个 全 局 模式 ( 即 Mediator 模式 ) ,用 户 只 需要 针对 全 局 模式 提交 查询 条 件 ， 
而 不 需要 知道 数据 源 的 模式 .位 置 以 及 访问 方法 ,系统 会 和 白 动 地 将 用 户 的 查询 条 件 分 别 转 
换 成 一 个 或 多 个 对 数据 源 的 查询 ,再 将 查询 得 到 的 结果 集 进行 处 理 和 整合 ,最 终 返回 给 
用 号。 

Mediator/ Wrapper 模式 中 的 异 构 数 据 源 具有 完全 的 自治 性 ,从 而 可 以 方便 地 对 数据 源 
进行 添加 和 删除 。 中 介 系统 一 般 由 一 个 Mediator 和 多 个 Wrapper 构成 ,Mediator 的 作用 是 
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将 针对 全 局 模 起 的 查询 进行 分 析 , 然 后 分 解 成 若干 个 子 查询 ,并 将 它们 分 别 转换 成 针对 所 对 
应 数据 源 的 查询 ,最 后 将 所 有 数据 源 的 结果 进行 合并 和 上 整合 ,再 返回 给 用 户 。Wrapper 的 作 
用 是 将 各 个 数据 源 中 的 数据 转换 为 统一 集成 系统 可 以 处 理 的 结构 化 的 数据 。 

Mediator/Wrapper 这 种 方式 的 优点 是 可 以 实现 大 量 的 数据 源 的 互 访 和 通信 ,对 数据 
源 的 数目 并 没有 限制 ,但 是 系统 的 结构 和 内 部 处 理 算法 实现 起 来 十 分 复杂 。 

3) 数据 仓库 

数据 仓库 集成 异 构 数据 源 的 策略 是 将 来 自 几 个 异 构 数据 源 的 数据 副本 ,按照 一 个 集 
中 、 统 一 的 视图 要 求 ,进行 预 处 理 ,转换 ,以 符合 数据 仓库 的 模式 ,并 存储 到 数据 仓库 中 。 
这 样 ,对 于 使 用 者 来 说 感觉 就 像 在 使 用 一 个 普通 的 数据 库 一 样 。 

一 旦 数据 存储 于 数据 仓库 ,用 户 使 用 查询 就 像 是 在 原来 单一 的 数据 源 中 查询 一 样 。 
另 一 方面 ,数据 仓库 可 能 会 禁止 用 户 去 更 新 数据 ,因为 ,用 户 对 数据 仓库 中 数据 的 更 新 将 
不 会 反映 到 原来 的 数据 源 中 ,这 就 会 造成 数据 源 和 数据 仓库 中 数据 不 一 致 的 问题 。 

目前 ,进行 数据 仓库 中 数据 构建 的 方式 有 以 下 三 种 ， 

(G) 数据 仓库 周期 性 的 从 原 数据 源 中 重新 构建 数据 。 

最 常 使 用 的 方式 是 在 每 天 午夜 ( 那 时 系统 可 能 需要 关机 ,并 且 不 是 用 户 使 用 数据 仓库 
的 高 峰 期) 或 者 是 更 长 周期 的 午夜 时 刻 进行 数据 重建 。 这 种 方式 的 主要 缺陷 是 需要 将 数 
据 仓库 关闭 ,而 事实 上 数据 的 重建 可 能 需要 很 长 的 时 间 。 对 于 某 些 应 用 来 说 ,过 长 的 时 间 
会 使 很 多 数据 过 时 。 

(2) 数据 仓库 周期 性 地 从 原 数据 源 中 更 新 数据 (采用 增 量 更 新 的 模式 , 即 每 次 数据 仓 
库 更 新 上 次 更 新 以 后 修改 的 数据 ) 。 

这 种 方式 只 会 影响 到 数据 仓库 中 少量 的 数据 ,这 样 即使 是 在 数据 仓库 的 容量 很 大 的 
时 候 ,数据 更 新 的 时 间 也 不 会 很 久 。 该 方式 主要 的 缺点 是 用 于 计算 数据 仓库 中 数据 更 新 
的 算法 ( 增 量 更 新 算法 ), 相 对 于 从 原始 数据 开始 构建 数据 仓库 的 算法 要 复杂 得 多 。 

(3) 数据 仓库 即时 更 新 异 构 数据 源 的 数据 变化 。 

当 一 个 或 多 个 数据 源 中 的 数据 发 生变 化 的 时 候 ,立即 更 新 数据 仓库 中 相应 的 数据 。 由 
于 这 种 方法 需要 数据 仓库 和 数据 源 之 间 频 繁 的 通信 ,所 以 这 种 方式 只 适用 于 小 型 的 ,数据 更 
新 量 小 的 数据 仓库 中 。 这 种 方式 有 着 一 个 典型 而 且 广泛 的 应 用 一 一 自动 股票 交易 系统 。 

总 之 ,数据 仓库 模式 的 异 构 数据 库 数据 共享 集成 的 优点 是 便于 进行 联机 分 析 和 数据 挖 
气 ; 缺 点 是 数据 重复 存储 ,难以 及 时 更 新 。 综 上 所 述 ,三 种 集成 方式 各 有 优 缺点 ,我 们 应 该 根 
据 实 际 应 用 的 具体 要 求 和 特点 来 选择 最 适合 的 集成 方式 以 满足 具体 应 用 的 实际 要 求 。 

3. 交易 自动 化 

各 种 应 用 只 要 遵循 共同 的 标准 ,就 可 以 使 得 应 用 程序 开发 商 开发 出 具有 一 定 自动 处 
理 能 力 的 代理 程序 ,从 而 提高 工作 效率 。 


3.6.4 ” 异 构 数据 交换 技术 


实现 异 构 数据 交换 的 方法 和 技术 较 多 ,这 里 列 出 XML、 本 体 技术 、Web Service 等 几 


000， 


人 


1. 基于 XML 的 异 构 数据 交换 技术 

XML (Extensible Markup Language, 可 扩展 标记 语言 ) 是 SGML (Standard 
Generalized Markup Language, 标 准 通用 标记 语言 ) 的 一 个 简化 子 集 ,1998 年 2 月 成 为 
W3C(The World Wide Web Consortium 互联 网 联合 组 织 ) 标 准 。 

XML 提供 了 一 种 灵活 的 数据 描述 方式 。XML 支持 数据 模式 、 数 据 内 容 、 数 据 显示 
方式 三 者 的 分 离 的 特点 ,这 使 得 同一 数据 内 容 在 不 同 终端 设备 上 的 个 性 化 数据 表现 形式 
成 为 可 能 ,在 数据 描述 方式 上 可 以 更 加 灵活 。XML 具有 很 强 的 链接 能 力 可 以 定义 双向 
链接 .多 目标 链接 ,扩展 链接 和 两 个 文档 间 的 链接 。 

XML 具有 自 描述 性 。XML 文档 通常 由 模式 描述 文件 和 事例 文件 组 成 ,前 者 用 于 描 
述 XML 事例 文件 所 能 使 用 的 标记 、 标 记 的 结构 ,标记 的 含义 等 ,而 XML 事例 文件 则 使 用 
这 些 预定 义 的 标记 描述 数据 ,所 以 XML 具有 自 描述 性 。 

XML 简单 ,易于 处 理 。 从 数据 处 理 的 角度 看 ,XML 足够 简单 ,易于 阅读 ,又 易于 被 
应 用 程序 处 理 。 

上 述 特点 使 得 XML 可 以 为 结构 化 数据 、 半 结构 化 数据 关系 数据 库 、 对 象 数据 库 等 
多 种 数据 源 的 数据 内 容 加 入 标记 , 适 于 作为 一 种 统一 的 数据 描述 工具 ,扮演 异 构 应 用 间 数 
据 交换 载体 或 多 源 异 构 数据 集成 全 局 模式 的 角色 。 事 实 上 ,XML 已 经 成 为 Internet 环境 
下 数据 表达 的 公开 而 被 广泛 支持 的 标准 。 

1) 基于 XML 的 异 构 数 据 交 换 的 总 体 过 程 

由 于 系统 的 异 构 性 ,需要 交换 的 数据 具有 多 个 数据 源 , 不 同 数据 源 的 数据 模式 可 能 不 
同 , 导 致 源 数 据 和 目标 数据 在 结构 上 存在 差异 。 

在 进行 数据 交换 时 ,首先 必须 将 数据 模型 以 统一 的 XML 格式 来 描述 ,这 就 需要 使 用 
XML 的 DTD 或 XML Schema 来 定义 文档 的 结构 ,DTD 定义 XML 文档 的 基本 结构 ,但 
不 涉及 任何 有 关 的 实际 数据 ,通过 定义 适当 的 DTD 将 源 数据 库 中 的 数据 转换 成 XML 文 
档 , 然 后 使 用 DOM 技术 来 解析 XML 文档 ,这 样 就 可 以 将 XML 文档 中 的 数据 存 人 目标 
数据 库 , 从 而 实现 了 异 构 数 据 的 交换 。 

由 于 DTD 文档 定义 的 数据 结构 与 源 数据 库 中 的 数据 结构 保持 一 致 ,从 而 保证 了 生 
成 的 XML 文档 与 源 数据 库 中 数据 的 一 致 性 。 

其 总 体 交换 过 程 如 图 3.6 所 示 。 


se 
源 数据 库 结构 化 的 目标 数据 库 
通过 DTD 约 东 文档 通过 DOM 


技术 解析 
图 3.6 基于 XML 的 异 构 数据 交换 的 总 体 过 程 














2) 数据 库 数 据 与 XML 文档 的 映射 原理 

在 XML 数据 和 数据 库 之 间 转 换 时 ,需要 考虑 许多 问题 ,XML 不 支持 任何 有 实际 意 
义 的 数据 模型 ,所 有 XML 文档 中 的 数据 都 会 被 当成 纯 文 本 处 理 。 通 常数 据 转换 中 间 件 
需要 把 XML 文档 中 的 纯 文本 转换 成 数据 库 的 数据 类 型 ,或 把 数据 库 的 数据 类 型 转换 为 
纯 文本 的 XML 格式 。 在 XML 文档 结构 和 数据 库 模 式 结构 之 间 进 行 相互 映射 ,一 般 有 两 
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种 映射 方法 : 模板 驱动 映射 与 模型 驱动 映射 。 

(1) 模板 驱动 映射 。 

基于 模板 驱动 的 映射 是 一 种 浅 层 次 的 映射 ,是 一 种 基于 模板 的 DTD 到 关系 模式 的 
转换 算法 ,其 转换 比较 简单 ,只 要 给 出 模板 ,就 可 以 快速 生成 相应 的 XML 文档 。 基 于 模 
板 的 映射 方法 不 用 预定 义 XML 数据 与 数据 库 数 据 之 间 的 映射 关系 ,只 是 在 XML 文档 中 
典 入 带 参数 的 SQL 命令 ,这些 模板 中 的 命令 由 数据 转换 中 间 件 来 处 理 , 在 转换 过 程 中 被 
识别 和 执行 ,将 执行 的 结果 替换 到 命令 所 在 的 位 置 上 ,从 而 生成 XML 文档 。 因 为 使 用 模 
板 驱 动 映射 在 数据 转换 时 需要 生成 大 量 合理 的 模板 ,所 以 系统 要 为 用 户 提供 生成 模板 的 
工具 ,以 及 相应 的 指令 执行 程序 ,其 过 程 如 图 3.7 所 示 。 


[模板 生成 | 


组 合并 嵌入 文字 


3.7 模板 驱动 映射 过 程 



























基于 模板 映射 的 优点 是 转换 步骤 简单 ,查询 语言 灵活 性 大 ,支持 通过 HTTP 的 传递 
参数 ,允许 嵌 套 查询 ,支持 SELECT 语句 的 参数 化 ,支持 编程 结构 ,如 可 以 由 程序 构建 
loop 循环 或 让 判断 等 。 目 前 大 多 数 的 数据 库 产品 都 属于 模板 映射 ,如 SQL Server、DB2 
和 Oracle 等 。 缺 点 是 模板 驱动 映射 是 以 XML 内 嵌 的 SQL 执行 的 数据 结果 集 为 依据 ,不 
涉及 数据 库 赖 以 存在 的 数据 模型 ,只 能 将 关系 数据 库 的 数据 转换 为 XML 文档 ,并 舍弃 了 
关系 模式 的 约束 条 件 , 所 以 也 不 支持 反 向 的 转换 。 

(2) 模型 驱动 映射 。 

模型 驱动 映射 是 一 种 深层 次 的 映射 ,其 原理 是 利用 XML 文档 中 的 数据 模型 的 结构 
显 性 或 隐 性 地 映射 成 其 他 数据 模型 的 结构 。 实 现 数据 库 和 XML 文档 间 的 数据 转换 的 关 
键 是 在 数据 库 模式 和 XMLSchemas 或 DTD 之 间 建 立 映射 关系 ,用 具体 的 模型 来 实现 数 
据 间 的 映射 。 通常 关 系数 据 库 利 用 关系 型 ,面向 对 象 数据 库 利 用 对 象 模型 ,而 XML 文档 
依赖 的 是 Schemas 或 DTD。 当 数据 从 数据 库 转 换 成 XML 文档 时 ,因为 依照 的 是 单个 模 
型 ,通常 需要 结合 XSL 来 控制 模板 驱动 ,从 而 保证 了 系统 的 灵活 性 。 

要 实现 关系 数据 库 数据 转换 XML 文档 时 ,将 层次 结构 的 XML 文档 理解 成 一 张 二 维 
表 , 直 接 与 数据 库 中 的 关系 表 相对 应 ,把 表 或 查询 结果 的 数据 插入 到 XML 文档 的 相应 位 
置 便 可 ,相反 把 XML 文档 数据 转换 成 数据 库 数据 时 ,只 要 把 内 容 插 入 到 相应 的 二 维 表 中 
即 可 。 如 果 是 把 对 象 数据 库 中 的 数据 转换 为 XML 文档 时 ,首先 要 将 XML 文档 映射 成 同 
样 具有 层次 结构 的 对 象 树 (DOM) ,然后 将 对 象 树 映射 到 面向 对 象 的 数据 库 中 ,或 通过 “对 
象 -关系 技术 ”将 对 象 树 映射 到 关系 数据 库 中 ,其 过 程 如 图 3.8 所 示 。 

基于 模型 映射 转换 的 优点 是 有 数据 模型 的 支持 ,相对 比较 简单 ,可 以 实现 XML 数据 
与 数据 库 数 据 间 的 双向 映射 。 缺 点 是 XML 文档 结构 受 数据 模型 的 限制 ,不 够 灵活 ,不适 
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Schemas 或 DTD 





图 3.8 模型 驱动 映射 过 程 


用 于 嵌 套 层次 比较 深 的 XML 文档 进行 映射 ,也 不 能 适用 于 多 个 对 象 集合 的 映射 ,映射 的 
时 候 表 的 结构 必须 与 对 象 结构 一 致 ,对 结构 不 一 致 的 数据 表 也 很 难 映射 ,不 能 定制 数据 库 
数据 与 XML 的 映射 。 

2. 本 体 技术 

本 体 是 对 某 一 领域 中 的 概念 及 其 之 间 关 系 的 显 式 描 述 。 是 语义 网 络 的 一 项 关键 技 
术 。 本 体 技术 能 够 明确 表示 数据 的 语义 以 及 支持 基于 描述 逻辑 的 自动 推理 。 为 语义 异 构 
性 问题 的 解决 提供 了 新 的 思路 ,对 异 构 数据 集成 来 说 应 该 有 很 大 的 意义 。 

但 本 体 技 术 也 存在 一 定 的 问题 : 已 有 关于 本 体 技术 研究 都 没有 充分 关注 如 何 利 用 本 
体 提 高 数据 集成 过 程 和 系统 维护 的 自动 化 程度 、 降 低 集成 成 本 、 简 化 人 工 工作 。 基 于 语义 
进行 自动 的 集成 尚 处 于 探索 阶段 ,本 体 技术 还 没有 真正 发 挥 应 有 的 作用 。 

3，Web Service 技术 


Web Service 是 近年 来 备 受 关注 的 一 种 分 布 式 计算 技术 。 它 是 在 Internet 或 
Intranet 上 使 用 标准 的 XML 语言 和 信息 格式 的 全 新 的 技术 架构 。 其 内 容 主 要 包括 
WSDL(Web Service 描述 语言 ,用 于 进行 服务 描述 )、UDDI( 统 一 描述 ,发 现 和 集成 规范 ， 
用 户 服 务 的 发 布 和 集成 ) 和 SOAP( 简 单 对 象 访问 协议 ,用 于 消息 传输 ) 。 

从 用 户 角 度 看 , Web Service 就 是 一 个 应 用 程序 , 它 向 外 界 暴 露出 一 个 能 够 通过 Web 
进行 调用 的 API。 服 务 请 求 者 能 够 用 非常 简便 的 类 似 于 函数 调用 的 方法 通过 Web 来 获 
得 远程 服务 ,服务 请 求 者 与 服务 提供 者 之 间 的 通信 遵循 SOAP 协议 。 

Web Service 体系 结构 由 角色 和 操作 组 成 。 角 色 主 要 有 服务 提供 者 (Service 
Provider) ,服务 请 求 者 (Service Requestor) .服务 注册 中 心 (Service Registry) 。 操 作 主 要 
有 发 布 (Publish)、 查 找 (Find)、 绑 定 (Bind)、 服务 (Service)、 服务 描 述 (Service 
Description) ,其 具体 架构 如 图 3. 9 所 示 。 

其 中 ,发 布 ?是 为 了 让 用 户 或 其 他 服务 知道 某 个 Web Service 的 存在 和 相关 信息 ,“ 查 
找 ? 是 为 了 找到 合适 的 Web Service 光 绑 定 ? 则 是 在 提供 者 与 请 求 者 之 间 建 立 某 种 联系 。 

在 异 构 数据 库 集 成 系统 中 ,可 以 利用 Web Service 具有 的 跨 平 台 、 完 好 封装 及 松散 耦 


第 3 章 大 数据 采集 与 预 处 理 


服务 注册 
中 心 





3.9 Web Service 架构 


合 等 特性 ,对 每 个 数据 源 都 为 其 创建 一 个 Web Service, 使 用 WSDL 向 服务 中 心 注册 , 然 
后 集成 系统 就 可 以 向 注册 中 心 发 送 查 找 请 求 并 选择 合适 的 数据 源 , 并 通过 SOAP 协议 从 
这 些 数 据 源 获取 数据 。 这 样 不 仅 有 利于 数据 集成 中 系统 异 构 问 题 的 解决 ,同时 也 使 得 数 
据 源 的 添加 和 删除 变 得 更 加 灵活 ,从 而 使 系统 具有 松 耦 合 . 易 于 扩展 的 良好 特性 ,能 实现 
异 构 数据 库 的 无 颖 集成。 


3.6.5 异 构 数据 交换 与 集成 的 研究 方向 


鉴于 异 构 数据 交换 所 固有 的 特点 ,可 以 相信 , 异 构 数据 交换 会 随 着 各 个 难题 的 解决 而 
得 到 越 来 越 广泛 的 应 用 。 

今后 , 异 构 数 据 交 换 与 集成 的 研究 方向 应 该 包括 : 

(1) 基于 网 格 、 本 体 语义 的 数据 集成 方案 的 研究 。 

(2) 集成 数据 的 完整 性 一 致 性 约束 。 

(3) 半 结 构 化 数据 全 局 模式 的 构建 方法 和 映射 方法 。 同 样 要 保证 数据 的 完整 性 和 一 
致 性 约束 能 够 在 半 结 构 化 的 数据 间 传 递 。 

(4) 数据 集成 过 程 中 安全 可 靠 的 数据 传输 技术 。 


3.7 大 数据 应 用 案例 之 : 互联 网 行业 哪个 职位 比较 有 前 途 


互联 网 行业 的 迅猛 发 展 ,使 得 越 来 越 多 的 年 轻 人 投入 到 互联 网 的 浪潮 中 。 互 联网 公 
司 需 求 哪些 人 才 , 哪 一 类 职业 更 抢手 ,哪些 人 更 容易 在 互联 网 公司 找到 工作 ,各 类 职业 工 
作 年 限 对 应 年 薪 分 布 如 何 ,哪些 城市 互联 网 公司 发 展 得 更 好 ,各 个 细 分 领域 的 互联 网 公司 
对 人 才 的 需求 如 何 ? 下面 就 用 数据 的 方式 来 对 互联 网 行业 的 职场 进行 分 析 。 

1. 数据 来 源 

数据 来 源 于 专注 互联 网 招聘 的 垂直 领域 网 站 
涉及 756 000 个 发 布 职位 。 

本 报告 使 用 了 超过 75 万 个 独立 的 真实 发 布 职位 ,100 000 家 互联 网 公司 ,职位 来 自 
10 万 家 互联 网 公司 ,266 个 不 同城 市 区 域 。 

2. 互联 网 各 类 职位 需求 状况 

整个 互联 网 行业 是 建立 在 计算 机 技术 开发 的 基础 之 上 ,因此 该 行业 对 于 技术 类 人 才 





拉 勾 网 ,采集 时 间 : 2014. 9 一 2015. 9， 


4。 大 数据 技术 及 应 用 教程 


的 需求 占 了 45% 左 右 。 然 而 现在 的 互联 网 产品 模仿 非常 严重 ,新 产品 上 线 不 久 往往 就 有 
很 多 的 竞争 者 ,加 之 现在 的 互联 网 产品 中 技术 越 来 越 不 能 成 为 其 壁垒 ,那么 ,除了 产品 自 
身 优秀 外 ,市 场 和 运营 的 作用 就 非常 关键 ,可 以 说 决定 着 产品 的 前 途 和 命运 。 

从 图 3.10 可 以 看 到 ,互联 网 行业 对 于 市 场 和 运营 的 人 才 需 求 比例 也 非常 大 。 从 排 在 
前 三 类 职位 的 细 分 职业 来 看 ,互联 网 行业 对 研发 工程 师 .销售 人 员 ,运营 专员 的 需求 分 别 
占 了 各 自 所 属 类 别 职位 的 一 半 以 上 。 











互联 网 各 类 职位 需求 情况 
技术 类 
区 网 
i | 
测试 ” 运 维 数据 
项 目 管理 
市 场 与 销售 类 
13% 1% 4% 
Ba | | 
和 务 划 公关 
市 场 与 销售 销售 商 策划 营销 公 
18% 
EE 
运营 客服 ”编辑 于 3 推 F 





数据 来 源 : 拉 勾 网 
3.10 互联 网 各 类 职位 需求 状况 


3, 互联 网 最 难 招 / 易 招 职位 


根据 职位 从 开放 到 关闭 时 所 经 历 的 平均 天 数 来 衡量 各 个 职位 的 难 易 招 程度 。 从 
图 3.11 可 以 看 到 ,互联 网 公司 招聘 一 名 营销 人 员 平均 需要 54. 4 天 时 间 ,可 谓 互联 网 最 难 
招 的 职位 ,排名 前 5 的 最 难 招 职位 中 ,有 2 个 职位 都 属于 市 场 与 销售 类 别 , 这 应 该 是 和 目 
前 互联 网 大 量 面向 客户 项 目的 创立 ,对 市 场 与 销售 人 员 的 庞大 需求 量 成 正 相 关 , 同 时 由 于 








互联 网 5 大 难 招 / 易 招 职位 
营销 市 场 与 销售 
美工 设计 
销售 市 场 与 销售 
架构 技术 
产品 经 理 品 
项 目 管理 技术 
人 力 资源 职能 
行政 职能 
会 计 职能 
鼓励 师 职能 
数据 来 源 : 拉 勾 网 


图 3.11 互联 网 最 难 招 / 易 招 职位 
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互联 网 市 场 类 职位 的 起 薪 相 对 较 低 ,也 成 为 该 类 职位 难 招 到 人 的 制约 因素 。 

我 们 看 到 ,互联 网 最 易 招 的 5 种 职位 中 ,有 4 种 均 属于 职能 类 别 的 职位 ,表明 互联 网 
对 这 类 职位 人 员 的 需求 量 不 大 。 我 们 发 现 前 段 时 间 兴 起 的 新 兴 职 位 : 程序 员 鼓 励 师 属于 
互联 网 最 易 招 的 职位 ,一 方面 是 目前 行业 内 公司 对 该 职位 需求 量 较 小 ,要 求 不 高 ; 另 一 方 
面 由 于 其 有 趣 的 工作 职责 要 求 , 吸 引 了 很 多 年 轻 女性 前 来 应 聘 。 

4. 互联 网 5 大 抢手 职业 

定义 一 个 职业 的 抢手 程度 = 平均 月 薪 X 发 布 职位 数 /已 招 到 职位 数 ,根据 这 个 公式 ,我 
们 统计 出 排名 前 5 的 互联 网 抢手 职业 ,如 图 3. 12 所 示 , 可 以 看 到 ,技术 岗位 职业 占据 了 4 
席 , 架 构 师 由 于 对 于 其 高 要 求 的 技术 能 力 需求 成 为 最 抢手 的 职业 ,产品 经 理 也 属于 5 大 抢手 
职业 之 一 ,这 对 于 那些 不 需要 特别 精通 技术 ,又 想 在 互联 网 行业 发 展 的 朋友 无 疑 是 一 个 很 好 
的 消息 。 





互联 网 5 大 职业 抢手 程度 


架构 师 @ 82.6 
项 目 管理 一 一 一 一 一 一 一 一 @@ 495 
产品 经 理 一 一 一 一 一 一 一 一 @ 492 
数据 工程 师 一 一 一 一 一 一 一 一 @ 48.0 





研发 工程 师 一 一 一 一 一 一 一 @ 47.4 


0.0 200 400 600 800 1000 
数据 来 源 : 拉 色 网 


图 3.12 互联 网 5 大 抢手 职业 


5. 互联 网 5 大 过 剩 职业 
与 抢手 职业 计算 公式 相同 ,统计 出 得 分 最 低 的 5 个 职业 ,从 图 3. 13 可 以 看 到 ,这 些 职业 
均 属 于 职能 类 别 , 由 于 很 多 互联 网 公司 属于 初创 期 ,对 于 财务 方面 的 业务 往往 不 重视 ,要 么 
外 包 给 财务 公司 ,要么 某 个 人 员 兼 任 , 所 以 出 纳 这 个 职业 成 为 互联 网 行业 最 过 剩 的 职业 。 
互联 网 5 大 过 剩 职业 


编辑 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ® 177 








客服 二 17.2 
行政 全 17.1 
前 台 ®@ 133 





出 纳 一 @ 130 


0.0 5.0 10.0 15.0 20.0 
数据 来 源 : 拉 勾 网 


3.13 互联 网 5 大 过 剩 职业 
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6. 互联 网 工作 年 限 与 对 应 年 薪 


从 图 3. 14 可 以 看 到 ,前 5 年 里 ,技术 和 产品 类 别 的 职位 年 薪 属 于 互联 网 行业 中 较 高 的 
群体 ,工作 5 年 后 ,运营 类 别 的 职位 年 薪 有 了 较 大 的 涨幅 ,后 期 甚至 超过 了 做 产品 的 人 员 。 


单位 : 千 元 互联 网 工作 年 限 与 对 应 年 薪 
450 





400 



































ae 
0 一 市 场 与 销售 
200 一 技术 
150 
一 设计 
100 ~- 运营 
50 
0 
1 年 以 下 1~3 年 3~5 年 5~10 年 10 年 以 上 


数据 来 源 : 拉 勾 网 
3.14 互联 网 工作 年 限 与 对 应 年 薪 


7. 各 个 城市 互联 网 公司 发 展 状况 
选取 互联 网 公司 最 集中 ,排名 前 5 的 城市 ,从 图 3. 15 可 以 看 到 ,上 海 的 非 天 使 轮 公司 


前 五 位 互联 网 公司 聚集 城市 公司 发 展 阶 段 分 布 



































10% 上 市 公司 
90% -国有 a 时 2 __ D 轮 及 以 上 
C 轮 

80% B 轮 
70% = 
60% A 轮 
50% - 
40% 
30% | 一 天 使 轮 
20% 
10% 

0 

北京 深圳 广州 杭州 

数据 来 源 : 拉 勾 网 


3.15 各 个 城市 互联 网 公司 发 展 状况 
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占 比 最 多 ,上 市 公司 占 比 也 最 高 ,表明 上 海 的 创业 公司 发 展 还 不 错 , 准 备 创业 的 人 可 以 考 


虑 以 上 海 作为 创业 地 。 


8. 互联 网 细 分 行业 统计 
根据 互联 网 公司 的 细 分 行业 ,对 每 个 行业 互联 网 公司 的 每 日 平均 岗位 数 .平均 月 薪 、 
平均 公司 规模 进行 了 统计 ,从 图 3. 16 可 以 看 到 ,移动 互联 网 搜索、 大 数据 和 游戏 行业 的 
公司 发 展 者 不错, 薪酬 待遇 相应 也 属于 行业 的 前 列 。 

















互联 网 细 分 行业 统计 
公司 所 属 行业 平均 岗位 数 (每 日 ) 平均 薪水 (月 薪 / 元 ) 平均 公司 规模 (人 ) 

1020 210 9939 206 
2 云 计 算 大 数据 151 10424 340 
3 企业 服务 174 9132 316 
4 健康 医疗 66 9267 159 
5 在 线 旅游 47 10976 339 
6 媒体 75 9162 276 
7 招聘 44 12125 212 
8 搜索 40 17348 1446 
9 教育 105 9363 243 
10 智能 家 居 27 8694 155 
11 游戏 156 11293 245 
12 生活 服务 65 10052 441 
13 电子 商务 506 kj 281 
14 硬件 37 9805 228 
15 社交 66 10695 86 
16 移动 互联 网 1280 10565 289 
17 运动 体育 和 10328 485 
18 金融 互联 网 242 10538 307 

数据 来 源 : 拉 勾 网 

图 3.16 互联 网 细 分 行业 统计 
习题 与 思考 题 
一 、 选 择 题 
1. 下 面 哪 种 不 属于 数据 预 处 理 的 方法 ? ( ) 
A. 变量 代 换 B. 离散 化 C. 聚集 D. 估计 遗漏 值 


2.(  ) 的 目的 缩小 数据 的 取 值 范围 ,使 其 更 适合 于 数据 挖掘 算法 的 需要 ,并 且 能 


UN 
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10. 


11. 


不 大 。 


12. 


务 ? 〈 


_ 大 数据 技术 及 应 用 教程 
够 得 到 和 原始 数据 相同 的 分 析 结 果 。 
A. 数据 清洗 B. 数据 集成 C. 数据 变换 D. 数据 归 约 
3， Google 收集 的 信息 不 包括 (  )。 
A. 日 志 信 息 B. 位 置信 息 
C. 你 的 家 庭 成 员 D. Cookie 和 匿名 标识 符 
4. 大 数据 的 取舍 与 ( ””) 不 相关 。 
A. 易于 提取 B. 家 庭 信 息 
C. 数字 化 D. 廉价 的 存储 器 
5. 大 数据 ,或 称 巨 量 资料 , 指 的 是 所 涉及 的 资料 量规 模 巨大 到 无 法 透 过 目前 主流 软 
件 工 具 , 在 合理 时 间 内 达到 撒 取 管理、 处理 .并 (  ) 成 为 帮助 企业 经 营 决策 更 积极 目的 
的 信息 。 
A. 收集 B. 整理 C. 规划 D. 育 集 
6. 下 面 哪 种 不 属于 数据 预 处 理 的 方法 ? ( ) 
A. 变量 代 换 B. 离散 化 C. 聚 集 D. 估计 遗漏 值 
7. 数据 清洗 的 方法 不 包括 (  )。 
A. 缺失 值 处 理 B. 噪声 数据 清除 
C. 一 致 性 检查 D. 重复 数据 记录 处 理 


. 智能 健康 手 环 的 应 用 开发 ,体现 了 ( ”) 的 数据 采集 技术 的 应 用 。 


A. 统计 报表 B. 网 络 疏 虫 C. API 接口 D. 传感器 


. 下 列 关于 数据 重组 的 说 法 中 ,错误 的 是 (。”)。 


A. 数据 重组 是 数据 的 重新 生产 和 重新 采集 

B. 数据 重组 能 够 使 数据 焕发 新 的 光芒 

C. 数据 重组 实现 的 关键 在 于 多 源 数据 融合 和 数据 集成 
D. 数据 重组 有 利于 实现 新 颖 的 数据 模式 创新 

下 列 关于 脏 数 据 的 说 法 中 ,正确 的 是 ( 。””)。( 多 选 题 ) 


A. 格式 不 规范 B. 编码 不 统一 
C. 意义 不 明确 D. 与 实际 业务 关系 不 大 
E. 数据 不 完整 


采样 分 析 的 精确 性 随 着 采样 随机 性 的 增加 而 ( ”), 但 与 样本 数量 的 增加 关系 


A. 降低 B. 不 变 C. 提高 D. 无 关 
将 原始 数据 进行 集成 ,变换 .维度 规约 .数值 规约 是 在 以 下 哪个 步骤 的 任 
) 


A. 频繁 模式 挖掘 B. 分 类 和 预测 
C. 数据 预 处 理 D. 数据 流 挖掘 
二 、 问 答题 


LE 


简 述 大 数据 采集 的 概念 。 


Dw SY 


. 绘 出 数据 采集 工作 流程 图 。 

. 简 述 大 数据 导入 / 预 处 理 的 过 程 。 

. 什么 是 数据 清洗 ? 

. 简 述 数据 采集 (ETL) 技 术 。 

. 分 别 描述 异 构 数据 交换 方式 和 技术 。 
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第 4 章 大 数据 存储 


Web ,移动 设备 和 其 他 技术 的 出 现 导 致 数据 性 质 的 根本 性 变化 。 大 数据 具有 重要 而 
独特 的 特性 ,这 种 特性 使 得 它 与 “传统 "企业 数据 区 分 开 来 。 不 再 集中 化 、 高 度 结构 化 并 且 
易于 管理 ,与 以 往 任何 时 候 相 比 ,现在 的 数据 都 是 高 度 分 散 的 ,结构 松散 (如 果 存 在 结构 的 
话 ) 并 且 体 积 越 来 越 大 。 传 统 数据 与 大 数据 的 特性 比较 见 表 4. 1。 


表 4.1 传统 数据 与 大 数据 对 比 

















传统 数据 大 数 据 
千 兆 字 节 一 百 万 兆 字 节 拍 字 节 (PB) 一 艾 字 节 (EB) 
集中 化 分 布 式 
结构 化 半 结 构 化 和 无 结构 化 
稳定 的 数据 模型 平面 模型 
已 知 的 复杂 的 内 部 关系 不 复杂 的 内 部 关系 





从 时 间或 成 本 效益 上 看 ,传统 的 数据 仓库 等 数据 管理 工具 都 无 法 实现 大 数据 的 处 理 
和 分 析 工 作 。 也 就 是 说 ,必须 将 数据 组 织 成 关系 表 (整齐 的 行 和 列 数 据 ) ,传统 的 企业 级 数 
据 仓库 才 可 以 处 理 。 由 于 需要 的 时 间 和 人 力 成 本 ,对 海量 的 非 结构 化 数据 应 用 这 种 结构 
是 不 切实 际 的 。 此 外 ,要 扩展 传统 的 企业 级 数据 仓库 使 其 适应 潜在 的 PB 级 数据 ,需要 在 
新 的 专用 硬件 上 投资 巨额 资金 。 而 由 于 数据 加 载 这 一 瓶颈 ,传统 数据 仓库 性 能 也 会 受到 
影响 。 

因此 ,需要 存储 大 数据 的 新 方法 。 


4.1 传统 数据 存储 


4.1.1 传统 数据 存储 介质 


数据 存储 介质 分 为 磁带 、 磁 盘 和 光盘 三 大 类 ,由 三 种 介质 分 别 构成 的 磁带 库 .磁盘 阵列 、 
光盘 库 三 种 主要 存储 设备 ,三 种 不 同 的 存储 介质 具有 不 同 的 数据 存储 特点 ( 见 表 4. 2) 。 

目前 市 场 上 的 存储 产品 主要 有 磁盘 阵列 、 磁 带 机 与 磁带 库 、 光 盘 库 等 ,其 中 磁盘 设备 
由 于 存 取 速度 快 数据 查询 方便 、 简 单 易 用 、 安 全 的 RAID 技术 等 占据 一 级 存储 市 场 的 主 
要 份额 ,磁带 设备 则 以 技术 成 熟 , 价 格 低廉 等 优点 占据 了 二 级 存储 市 场 的 重要 地 位 ,光盘 
设备 由 于 同时 具有 二 者 的 特点 ,因此 应 用 在 广泛 的 领域 中 。 





表 4.2 存储 介质 种 类 及 特点 
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介质 分 类 介质 优点 介质 缺点 | 数据 存储 速度 |。 应 用 环境 
磁带 “| 容量 大 .保存 时 间 长 et 慢 海量 数据 的 定期 备份 
数据 读 取 、 写 人 速度 快 , 操 | 发 热量 大 ,噪声 大 . 硬 
破 盘 | 数据 该 很 快 “| 海量 数据 的 即时 存 取 
单位 存储 容量 成 本 低 , 扒 海量 数据 的 在 线 访问 
光盘 | 带 方便 ,数据 查询 时 间 短 | 表面 易 磨损 \ 寿 命 短 | 快 和 离线 存储 
1. 磁带 库存 储 


自从 第 一 台 磁带 驱动 器 IBM726 发 明 以 后 ,磁带 存储 技术 经 过 了 多 年 的 发 展 ,具有 稳 
定 、 高 可 用 、 低 成 本 等 诸多 优点 ,磁带 已 经 成 为 重要 的 存储 设备 。 磁 带 技术 可 以 通过 脱 机 
来 避免 在 数据 备份 .迁移 和 保护 等 应 用 中 数据 丢失 的 可 能 性 。 另 外 ,磁带 技术 在 高 可 千 
性 、 低 成 本 等 方面 也 比 其 他 存储 设备 具有 优势 ,至 今 相同 容量 的 磁带 库 成 本 比 磁盘 的 
RAID 系统 还 是 要 低 很 多 ,因此 只 要 不 断 提高 /0 的 传输 速率 ,增加 单个 磁带 的 数据 容 
量 , 简 化 磁带 管理 软件 的 应 用 界面 ,磁带 技术 就 不 会 在 短期 内 过 时 ,目前 解决 企业 数据 长 
期 保存 的 有 效 方法 依然 是 采用 磁带 存储 技术 。 随 着 制造 技术 和 生产 工艺 的 不 断 改进 , 磁 
带 将 被 做 得 越 来 越 小 ,存储 能 力 越 来 越 大 ,磁带 库 所 占 空间 将 减 小 。 随 着 磁带 机 的 自动 化 
程度 的 提高 ,传动 系统 故障 率 的 降低 ,磁带 存储 性 能 的 提高 ,磁带 在 存储 备份 市 场 的 主导 
地 位 还 会 保持 相当 长 的 时 间 。 

2 光盘 海量 存储 

光盘 存储 技术 是 近年 来 发 展 迅速 的 光学 信息 存储 新 技术 。 光 盘存 储 技术 是 一 种 光学 
信息 存储 技术 ,通过 调制 激光 束 在 光学 圆 盘 镀膜 介质 中 把 信息 编码 以 光 点 的 形式 记录 下 
来 。 在 记录 及 读 取 过 程 中 ,激光 头 不 直接 接触 光盘 的 表面 ,光盘 上 的 记录 信息 不 易 被 破 
坏 ,具有 存储 密度 高 ,容量 大 检索 时 间 短 ,易于 复制 .保存 时 间 长 ,应 用 领域 广 等 诸多 优 
点 ,因此 光盘 海量 存储 技术 被 大 量 的 应 用 。 

单 张 光盘 的 存储 容量 从 CD 盘 片 的 几 百 兆 字 节 到 最 新 的 蓝光 DVD 几 十 吉 字 节 ,这 样 
的 容量 对 于 海量 信息 存储 系统 来 讲 是 远 远 不 够 的 ,要 想 获得 海量 的 数据 存 取 , 就 必须 将 大 
量 存储 不 同 信息 的 几 十 .上 百 甚至 上 千张 光盘 组 合 起 来 使 用 。 光 盘存 储 的 主要 形式 有 以 
下 几 种 : 光盘 塔 \SCSI 光盘 塔 、 网 络 光盘 塔 .光盘 库 .光盘 镜像 服务 器 ( 见 表 4.3) ,其 中 光 
盘 网 络 镜像 服务 器 是 一 种 网 络 附加 存储 设备 ,代表 了 光盘 库 的 发 展 方向 。 


表 4.3 三 种 光盘 设备 性 能 比较 表 


























设备 分 类 访问 速度 容量 成 本 可 共享 用 户 数 应 用 环境 
光盘 塔 中 等 小 较 高 少 片 库 
光盘 库 慢 较 大 最 高 办 图 书馆 、 信 息 管理 中 心 
光盘 镜像 服务 器 很 快 最 大 最 低 多 多 种 网 络 环境 


大 数据 技术 及 应 用 教程 


随 着 光 存储 技术 的 发 展 ,光盘 产品 不 断 的 系列 化 , 光 存 储 设 备 价格 不 断 的 降低 ,应 用 
领域 越 来 越 广 泛 , 不 仅 满足 海量 数据 的 存储 还 能 实现 一 些 基本 的 离线 备份 功能 ,因此 目前 
多 媒体 海量 信息 存储 载体 或 重要 文献 资料 备份 媒体 仍然 采用 光盘 介质 。 

当然 光盘 技术 也 存在 着 一 些 不 足 之 处 ,还 有 一 些 尚 待 研究 和 解决 的 问题 ,例如 记录 速 
度 慢 \ 保 存 时间 短 等 ,另外 光盘 存储 格式 还 未 建立 统一 的 光盘 技术 国际 标准 。 随 着 记录 介 
质 记录 方法 和 系统 性 能 的 不 断 改进 和 提高 ,光盘 存储 技术 一 定 会 达到 更 加 完善 的 程度 ， 
从 而 不 断 满足 人 们 对 海量 信息 存储 新 的 要 求 。 


3. 磁盘 阵列 海量 存储 


磁盘 阵列 又 称 为 廉价 磁盘 元 余 阵列 (Redundant Array of Inexpensive Disks， 
RAID) ,是 指使 用 两 个 或 两 个 以 上 同类 型 容量、 接口 的 磁盘 ,在 磁盘 控制 器 的 管理 下 按 
照 特定 的 方式 组 成 特定 的 磁盘 组 合 ,从 而 能 快速 ,准确 和 安全 地 读 写 磁盘 数据 。 

磁盘 阵列 的 特点 是 将 数据 有 选择 性 地 分 布 在 多 个 磁盘 上 ,不 仅 提高 数据 的 可 用 性 及 
存储 容量 ,而 且 使 得 数据 存 取 速度 快 ,吞吐 量 大 ,从 而 避免 硬盘 故障 所 带 来 的 灾难 后 果 。 
磁盘 阵列 把 多 个 硬盘 驱动 器 连接 在 一 起 协同 工作 ,提高 了 存 取 速度 ,同时 把 磁盘 系统 的 可 
靠 性 提高 到 接近 于 无 错 的 等 级 ,因此 磁盘 阵列 是 一 种 安全 性 高 ,速度 快 ,容量 大 的 存储 设 
备 。 针 对 不 同 的 应 用 磁盘 阵列 具有 多 种 不 同 级 别 , 详 见 表 4.4。 


表 4.4 常用 RAID 级 别 特性 比较 

















RAID 级 别 | 名 称 速 度 容错 | 磁盘 数量 应 ”用 
无 容错 条 带 磁 WE 二 视频 、 图 像 编辑 及 需要 
Level 0 盘 阵列 磁盘 并 行 输入 输出 无 | 至 少 两 块 高 带宽 的 应 用 
读 取 速度 是 单个 磁盘 两 倍 ， i 会 计 、 金 融 、 付 款 等 需 
Level 1 | 磁盘 镜像 方式 | 写 和 速度 与 单个 碰 盘 相同 ”| 有 | 至 少 两 志 | 要 高 可 靠 性 的 应 用 
Wael: 交叉 存 取 加 分 | 最 快 的 读 取 速度 ,中 等 的 写 有 | 至 少 三 块 文件 .数据库 Web、 
布 奇偶 校 检 “| 入 速度 一 “| E-mail 等 应 用 服务 器 
Am | 数据 库 服务 器 和 需要 
Level 10 镜像 条 带 集 同 Level 0 有 | 至 少 四 块 高 可 靠 .高 性 能 服务 器 
Level 0 十 1 | 条 带 集 镜像 ”| 同 Level 1 有 “| 至 少 四 块 

















4.1.2 存储 的 模式 


数据 存储 需要 系统 具有 良好 的 数据 容错 性 能 和 系统 稳定 性 ,在 发 生 部 分 数据 错误 时 ， 
系统 可 以 在 线 恢复 和 重建 数据 ,而 不 影响 系统 的 正常 运行 。 

1. 直 连 式 存储 

直 连 式 存储 (DAS) 即 磁盘 驱动 器 和 服务 器 直接 连接 ,存储 作为 外 围 设备 ,在 这 种 存 
储 结构 中 ,数据 管理 是 以 服务 器 为 中 心 的 ,而 且 所 有 的 应 用 软件 都 是 和 存储 子 系统 配套 
的 。DAS 适用 于 一 个 或 有 限 的 几 个 服务 器 环境 ,但 存储 容量 增加 时 ,不 但 存储 供应 的 效 
率 变 得 越 来 越 低 ,而且 可 升级 和 扩展 性 受到 很 大 限制 , 当 服 务 器 出 现 异 常 时 ,更 使 数据 不 


人 


可 获得 ,同时 存储 资源 和 数据 也 无 法 进行 共享 。 
2. 网 络 存储 


网 络 存储 分 为 网 络 附加 存储 (Network Attached Storage,NAS) .光纤 存储 区 域 网 
FC-SAN IP 存储 区 域 网 IP-SAN。 

NAS 将 存储 设备 连接 到 现 有 的 网 络 上 来 提供 数据 和 文件 服务 。NAS 服务 器 一 般 由 
存储 硬件 .操作 系统 以 及 其 上 的 文件 系统 等 几 个 部 分 组 成 。NAS 通过 网 络 直接 连接 磁盘 
阵列 ,磁盘 阵列 具备 了 高 容量 .高 效能 ,高 可 靠 等 特征 。NAS 将 存储 设备 通过 标准 的 网 络 
拓扑 结构 连接 ,可 以 无 须 服 务 器 直接 上 网 ,不 依赖 通用 的 操作 系统 ,而 是 采用 一 个 面向 用 
户 设计 的 专门 用 于 数据 存储 的 简化 操作 系统 ,内 置 与 网 络 连接 所 需 的 协议 ,从 而 使 整个 
系统 的 管理 和 设置 较为 简单 。 

光纤 存储 区 域 网 FC-SAN 指 的 是 通过 一 个 单独 的 高 速 光纤 网 络 把 存储 设备 和 挂 在 
TCP/IP 网 络 上 的 服务 器 群 相连 。 当 有 海量 数据 的 存 取 需求 时 ,数据 可 以 通过 存储 区 域 
网 在 相关 服务 器 和 后 台 存 储 设备 之 间 高 速 传输 。SAN 以 光纤 通道 为 基础 ,不 但 提供 了 主 
机 和 存储 设备 之 间 的 高 速 互联 ,实现 了 存储 设备 的 共享 ,服务 器 通过 存储 网 络 直接 同 存储 
设备 交换 数据 ,不 占用 LAN 的 网 络 资源 。 

IP-SAN 由 于 主要 部 分 采用 光纤 通道 ,设备 高 昂 的 成 本 问题 一 直 未 能 得 到 解决 ,为 此 
将 iSCSI 卡 集成 到 NAS 存储 设备 上 ,支持 数据 块 形式 的 I/O 访问 ,最 后 发 展 成 主机 通过 
带 TCP 印 载 引 擎 (TCP Off-load Engine, TOE) 的 iSCSI 主机 总 线 适 配器 (Host Bus 
Adapter,HBA) 卡 接 入 IP 网 络 来 访问 iSCSI 存储 设备 。IP 存储 采用 基于 IP 协议 的 网 络 
传输 数据 ,由 于 IP 环境 下 数据 包 可 以 被 捕捉 解码 ,对 此 iSCSI 存储 要 采用 多 种 安全 措施 
以 提高 数据 访问 和 数据 存储 的 安全 性 。 


3. 数据 虚拟 存储 


虚拟 存储 是 将 各 种 存储 物理 设备 整合 为 一 个 整体 ,从 而 实现 在 公共 控制 平台 下 集中 
存储 资源 ,统一 存储 设备 的 管理 ,方便 用 户 的 数据 操作 ,简化 复杂 的 存储 管理 配置 ,使 系统 
能 够 提供 完整 ,便捷 的 数据 存储 功能 。 虚 拟 存储 技术 在 用 户 操作 系统 看 到 的 存储 设备 与 
实际 物理 存储 设备 之 间 搭建 了 一 个 虚拟 的 操作 平台 ,这 样 从 应 用 程序 一 直到 最 终 的 数据 
端 都 可 以 实施 虚拟 存储 ,虚拟 化 技术 的 最 终 功 能 可 以 在 服务 器 ,网 络 和 存储 设备 这 三 个 层 
面 上 实现 , 即 主 机 、 网 络 和 存储 设备 三 个 部 分 都 可 实施 虚拟 存储 。 

采用 虚拟 存储 技术 ,可 以 支持 物理 磁盘 空间 动态 扩展 ,从 而 使 用 户 不 必 抛 弃 现 有 设 
备 ,并 实现 了 存储 容量 的 动态 扩展 。 虚 拟 存 储 使 得 数据 存储 总 体 成 本 降低 , 随 着 用 户 对 数 
据 管理 需求 的 不 断 增加 ,虚拟 化 技术 正在 逐步 成 为 存储 领域 的 核心 ,虚拟 存储 不 仅 可 以 降 
低 存储 资源 管理 的 复杂 性 ,而 且 可 以 带 给 系统 高 可 用 性 和 高 可 靠 性 ,从 而 降低 数据 存储 管 
理 成 本 。 


4.2 海量 数据 存储 的 需求 


随 着 信息 社会 的 发 展 , 越 来 越 多 的 信息 被 数据 化 ,尤其 是 伴随 着 Internet 的 发 展 , 数 
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据 呈 爆炸 式 增长 。 从 存储 服务 的 发 展 趋势 来 看 ,一 方面 ,是 对 数据 的 存储 量 的 需求 越 来 越 
大 ; 另 一 方面 ,是 对 数据 的 有 效 管理 提出 了 更 高 的 要 求 。 首 先是 存储 容量 的 急剧 膨胀 ,从 
而 对 于 存储 服务 器 提出 了 更 大 的 需求 ;其 次 是 数据 持续 时 间 的 增加 ;最 后 ,对 数据 存储 的 
管理 提出 了 更 高 的 要 求 。 数 据 的 多 样 化 ,地 理 上 的 分 散 性 、 对 重要 数据 的 保护 等 等 都 对 数 
据 管理 提出 了 更 高 的 要 求 。 

随 着 数字 图 书馆 、 电 子 商 务 、 多 媒体 传输 等 用 的 不 断 发 展 ,数据 从 GB、TB 到 PB 量 级 
海量 急速 增长 。 存 储 产 品 已 不 再 是 附属 于 服务 器 的 辅助 设备 ,而 成 为 互联 网 中 最 主要 的 
花费 所 在 。 海 量 存 储 技术 已 成 为 继 计 算 机 浪潮 和 互联 网 浪潮 之 后 的 第 三 次 浪潮 ,磁盘 阵 
列 与 网 络 存储 成 为 先锋 。 

1, 海量 数据 存储 简介 


海量 存储 的 含义 在 于 ,数据 存储 中 的 容量 增长 是 没有 止境 的 。 因 此 ,用 户 需要 不 断 地 
扩张 存储 空间 。 但 是 ,存储 容量 的 增长 往往 同 存储 性 能 并 不 成 正比 。 这 也 就 造成 了 数据 
存储 上 的 误区 和 障碍 。 

海量 存储 技术 的 概念 已 经 不 仅仅 是 单 台 的 存储 设备 。 而 多 个 存储 设备 的 连接 使 得 数 
据 管理 成 为 一 大 难题 。 因 此 ,统一 平台 的 数据 管理 产品 近年 来 受到 了 广大 用 户 的 欢迎 。 
这 一 类 型 的 产品 能 够 将 不 同 平台 的 存储 设备 整合 在 一 个 单一 的 控制 界面 上 ,结合 虚拟 化 
软件 对 存储 资源 进行 管理 。 这 样 的 产品 无 疑 简化 了 用 户 的 管理 。 

数据 容量 的 增长 是 无 限 的 ,如 果 只 是 一 味 地 添加 存储 设备 ,那么 无 疑 会 大 幅 增加 存储 
成 本 。 因 此 ,海量 存储 对 于 数据 的 精简 也 提出 了 要 求 。 同 时 ,不 同 应 用 对 于 存储 容量 的 需 
求 也 有 所 不 同 ,而 应 用 所 要 求 的 存储 空间 往往 并 不 能 得 到 充分 利用 ,这 也 造成 了 浪费 。 

针对 以 上 的 问题 ,重复 数据 删除 和 自动 精简 配置 两 项 技术 在 近年 来 受到 了 广泛 的 关 
注 和 追捧 。 重 复数 据 删除 通过 文件 块 级 的 比 对 ,将 重 复 的 数据 块 删除 而 只 留 下 单一 实例 。 
这 一 做 法 使 得 完 余 的 存储 空间 得 到 释放 ,从 客观 上 增加 了 存储 容量 。 

2. 处 理 海 量 数据 存储 中 存在 的 问题 

目前 大 数据 存储 面临 几 个 问题 ; 一 是 存储 数据 的 成 本 在 不 断 地 增加 ,如 何 削 减 开支 
节约 成 本 以 保证 高 可 用 性 ;二 是 数据 存储 容量 爆炸 性 增长 且 难 以 预 估 ; 三 是 越 来 越 复杂 的 
环境 使 得 存储 的 数据 无 法 管理 。 企 业 信息 架构 如 何 适 应 现状 去 提供 一 个 较为 理想 的 解决 
方案 ,目前 业界 有 几 个 发 展 方向 。 

1 存储 虚拟 化 

对 于 存储 面临 的 难题 ,业界 采用 的 解决 手段 之 一 就 是 存储 虚拟 化 。 虚 拟 存储 的 概念 
实际 上 在 早期 的 计算 机 虚拟 存储 器 中 就 已 经 很 好 地 得 以 体现 , 常 说 的 网 络 存储 虚拟 化 只 
不 过 是 在 更 大 规模 范围 内 体现 存储 虚拟 化 的 思想 。 该 技术 通过 聚合 多 个 存储 设备 的 空 
间 ,灵活 部 署 存储 空间 的 分 配 ,从 而 实现 现 有 存储 空间 高 利用 率 ,避免 了 不 必要 的 设备 
开支 。 

存储 虚拟 化 的 好 处 显而易见 ,可 实现 存储 系统 的 整合 ,提高 存储 空间 的 利用 率 ,简化 
系统 的 管理 ,保护 原 有 投资 等 。 越 来 越 多 的 厂商 正 积极 投身 于 存储 虚拟 化 领域 ,比如 数据 
复制 .自动 精简 配置 等 技术 也 用 到 了 虚拟 化 技术 。 
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虚拟 化 并 不 是 一 个 单独 的 产品 ,而 是 存储 系统 的 一 项 基本 功能 。 它 对 于 整合 异 构 存 
储 环 境 、 降 低 系统 整体 拥有 成 本 是 十 分 有 效 的 。 在 存储 系统 的 各 个 层面 和 不 同 应 用 领域 
都 广泛 使 用 虚拟 化 这 个 概念 。 考 虑 整个 存储 层次 大 体 分 为 应 用 ,文件 和 块 设备 三 个 层次 ， 
相应 的 虚拟 化 技术 也 大 致 可 以 按 这 三 个 层次 分 类 。 

目前 大 部 分 设备 提供 商 和 服务 提供 商都 在 自己 的 产品 中 包含 存储 虚拟 化 技术 ,使 得 
用 户 能 够 方便 地 使 用 。 

2) 容量 扩展 

目前 ,在 发 展 趋势 上 ,存储 管理 的 重点 已 经 从 对 存储 资源 的 管理 转变 到 对 数据 资源 的 
管理 。 随 着 存储 系统 规模 的 不 断 扩 大 ,数据 如 何在 存储 系统 中 进行 时 空 分 布 成 为 保证 数 
据 的 存 取 性 能 .安全 性 和 经 济 性 的 重要 问题 。 面 对 信息 海量 增长 对 存储 扩容 的 需求 ,目前 
主流 厂商 均 提出 了 各 自 的 解决 方案 。 

由 于 存储 现状 比较 复杂 ,存储 技术 的 发 展业 界 还 没有 形成 统一 的 认识 ,因此 在 应 对 存 
储 容量 增长 的 问题 上 , 尚 存在 很 大 的 提升 空间 。 技 术 是 发 展 的 ,数据 的 世界 也 是 在 不 断 变 
化 的 过 程 中 走向 完美 。 企 业 信 息 架构 的 “分 ”与 “ 合 ” 的 情况 并 不 绝对 。 目前, 出现 了 许多 
的 融合 技术 ,如 NAS 与 SAN 的 融合 ,统一 存储 网 等 等 。 这 些 都 将 对 企业 信息 架构 产生 
不 同 的 影响 。 至 于 到 底 采 用 哪 种 技术 更 合适 ,取决 于 企业 自身 对 数据 的 需求 。 

3. 海量 数据 存储 技术 


为 了 支持 大 规模 数据 的 存储 、 传 输 与 处 理 , 针 对 海量 数据 存储 目前 主要 开展 如 下 三 个 
方向 的 研究 。 

1) 虚拟 存储 技术 

存储 虚拟 化 的 核心 工作 是 物理 存储 设备 到 单一 逻辑 资源 池 的 映射 ,通过 虚拟 化 技术 ， 
为 用 户 和 应 用 程序 提供 了 虚拟 磁盘 或 虚拟 卷 , 并 且 用 户 可 以 根据 需求 对 它 进行 任意 分 割 、 
合并 ,重新 组 合 等 操作 ,并 分 配给 特定 的 主机 或 应 用 程序 ,为 用 户 隐藏 或 屏蔽 了 具体 的 物 
理 设备 的 各 种 物理 特性 。 存 储 虚 拟 化 可 以 提高 存储 利用 率 ,降低 成 本 ,简化 存储 管理 ,而 
基于 网 络 的 虚拟 存储 技术 已 成 为 一 种 趋势 , 它 的 开放 性 ,扩展 性 ,管理 性 等 方面 的 优势 将 
在 数据 大 集中 、 异 地 容 灾 等 应 用 中 充分 体现 出 来 。 

2) 高 性 能 IO 

集群 由 于 其 很 高 的 性 价 比 和 良好 的 可 扩展 性 ,近年 来 在 HPC 领域 得 到 了 广泛 的 应 
用 。 数 据 共 享 是 集群 系统 中 的 一 个 基本 需求 。 当 前 经 常 使 用 的 是 网 络 文件 系统 NFS 或 
者 CIFS。 当 一 个 计算 任务 在 Linux 集群 上 运行 时 ,计算 结 点 首先 通过 NFS 协议 从 存储 
系统 中 获取 数据 ,然后 进行 计算 处 理 , 最 后 将 计算 结果 写 入 存储 系统 。 在 这 个 过 程 中 , 计 
算 任务 的 开始 和 结束 阶段 数据 读 写 的 I/O 负载 非常 大 ,而 在 计算 过 程 中 几乎 没有 任何 负 
载 。 当 今 的 Linux 集群 系统 处 理 能 力 越 来 越 强 , 动 辑 达 到 几 十 甚至 上 百 个 TFLOPS ,于 
是 用 于 计算 处 理 的 时 间 越 来 越 短 。 但 传统 存储 技术 架构 对 带宽 和 I/O 能 力 的 提高 却 非 
常 困难 且 成 本 高 昂 。 这 造成 了 当 原始 数据 量 较 大 时 ,I/O 读 写 所 占 的 整体 时 间 就 相当 可 
观 , 成 为 HPC 集群 系统 的 性 能 瓶颈 。I/O 效率 的 改进 ,已 经 成 为 今天 大 多 数 Linux 并 行 
集群 系统 提高 效率 的 首要 任务 。 
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3) 网 格 存储 系统 

高 能 物理 的 数据 需求 除了 容量 特别 大 之 外 ,还 要 求 广泛 的 共享 。 比 如 运行 于 BECPII 
上 的 新 一 代 北京 谱 仪 实验 BESIII, 未 来 五 年 内 将 累积 数据 5PB, 分 布 在 全 球 20 多 个 研究 
单位 将 对 其 进行 访问 和 分 析 。 因 此 ,网 格 存储 系统 应 该 能 够 满足 海量 存储 、 全 球 分 布 、 快 
速 访问 、 统 一 命名 的 需求 。 主 要 研究 的 内 容 包括 网 格 文件 名 字 服 务 ,存储 资源 管理 、 高 性 
能 的 广域网 数据 传输 ,数据 复制 .透明 的 网 格 文件 访问 协议 等 。 

4. 海量 数据 处 理 问题 分 析 


(1) 数据 量 过 大 ,数据 中 什么 情况 都 可 能 存在 。 处 理 海量 数据 时 ,由 于 软件 与 硬 上 都 
具有 很 高 的 要 求 , 可 能 会 造成 系统 崩溃 和 硬件 损坏 ,将 导致 处 理 程序 终止 。 

(2) 软 硬 件 要 求 高 ,系统 资源 占用 率 高 。 对 海量 的 数据 进行 处 理 ,除了 好 的 方法 ,最 
重要 的 就 是 合理 使 用 工具 ,合理 分 配 系统 资源 。 一 般 情况 ,如 果 处 理 的 数据 在 TB 级 以 
上 ,小 型 机 是 要 考虑 的 ,普通 的 机 器 如 果 有 好 的 方法 可 以 考虑 ,不 过 也 必须 加 大 CPU 和 
内 存 , 就 像 面 对 着 千 军 万 马 , 光 有 勇气 没有 一 兵 一 卒 是 很 难 取 胜 的 。 

(3) 要 求 很 高 的 处 理 方法 和 技巧 。 好 的 处 理 方法 是 一 位 工程 师长 期 工作 经 验 的 积 
累 ,也 是 个 人 的 经 验 的 总 结 。 没 有 通用 的 处 理 方法 ,但 有 通用 的 原理 和 规则 。 


5. 海量 数据 存储 的 处 理 方法 


(1) 选用 优秀 的 数据 库 工 具 。 

(2) 编写 优良 的 程序 代码 。 

(3) 对 海量 数据 进行 分 区 操作 。 

(4) 建立 广泛 的 索引 。 

(5) 建立 缓存 机 制 。 

(6) 加 大 虚拟 内 存 。 

(7) 分 批 处 理 。 

(8) 使 用 临时 表 和 中 间 表 。 

(9) 优化 查询 SQL 语句 。 

(10) 使 用 文本 格式 进行 处 理 。 

(11) 定制 强大 的 清洗 规则 和 出 错 处 理 机 制 。 

(12) 建立 视图 或 者 物化 视图 。 

(13) 避免 使 用 32 位 机 (极端 情况 ) 。 

(14) 考虑 操作 系统 问题 。 

(15) 使 用 数据 仓库 和 多 维 数据 库存 储 。 

(16) 使 用 采样 数据 ,进行 数据 挖掘 。 

(17) 海量 数据 关联 存储 。 

6. 海量 数据 是 发 展 前 景 
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了 一 线 生 机 。 虽 然 光 存储 器 的 支持 者 们 一 直 宣 传 该 技术 将 成 为 下 一 代 伟 大 的 存储 技术 ， 
但 是 即便 在 它 得 到 推广 之 后 ,其 企业 客户 基础 在 整个 市 场 上 的 份额 仍然 很 小 。 

2) 分 布 式 存储 与 P2P 存储 

分 布 式 存储 概念 提出 较 早 ,目前 再 次 成 为 热点 。P2P 存储 可 以 看 作 分 布 式 存储 的 一 
种 ,是 一 个 用 于 对 等 网 络 的 数据 存储 系统 , 它 的 目标 是 提供 高 效率 的 、 鲁 棒 和 负载 平衡 的 
文件 存 取 功 能 。 

3) 数据 网 格 

为 了 满足 人 们 对 高 性 能 ,大 容量 分 布 存储 能 力 的 要 求 所 提出 的 概念 ,类 似 于 计算 网 
格 , 是 有 机 的 智能 单元 的 组 合 。 

4) 智能 存储 系统 

智能 存储 系统 包括 主动 的 信息 采集 .主动 信息 分 析 .主动 调整 等 。 

5) 存储 服务 质量 QoS 

应 用 环境 越 来 越 复杂 ,存储 需求 区 别 也 越 来 越 明显 ,这 就 需要 为 应 用 提供 区 分 服务 。 
目前 的 研究 以 基于 网 络 存储 的 QoS 为 主 。 

6) 存储 容 灾 

通过 特定 的 容 灾 机 制 ,能 够 在 各 种 灾难 损害 发 生 后 ,最 大 限度 地 保障 计算 机 信息 系统 
不 间断 提供 正常 应 用 服务 。 

7. 大 数据 存储 生命 周期 过 程 

大 数据 分 析 相 比 于 传统 的 数据 仓库 应 用 ,具有 数据 量 大 、 查 询 分 析 复 杂 等 特点 。 大 数 
据 存储 由 于 其 本 身 存 在 的 4V 特征 ,传统 的 存储 技术 不 能 满足 大 数据 存储 的 需要 ,通过 数 
据 采集 (ETL) 技 术 数 据 资源 被 从 源 系统 中 提取 ,并 被 转换 为 一 个 标准 的 格式 ,再 使 用 
NoSQL 数据 库 进 行 数据 库存 取 管 理 , 充 分 利用 网 络 云 存 储 技 术 节约 企业 存储 成 本 、 提 高 
效率 的 优势 ,通过 分 布 式 网 络 文件 系统 将 数据 信息 存储 在 整个 互联 网 络 资源 中 ,并 用 可 视 
化 的 操作 界面 随时 满足 用 户 的 数据 处 理 需求 。 

大 数据 技术 是 一 个 整体 ,没有 统一 的 解决 方案 ,从 大 数据 生命 周期 过 程 的 角度 可 分 为 
数据 采集 ETL 技术 .NoSQL ` 云 存储 、 分 布 式 系统 .数据 可 视 化 5 个 部 分 。 


4.3 分 布 式 存储 系统 


4.3.1 分 布 式 存储 系统 


随 着 全 球 非 结 构 化 数据 快速 增长 ,针对 结构 化 数据 设计 的 这 些 传统 存储 结构 在 性 能 、 
可 扩展 性 等 方面 都 难以 满足 要 求 , 进 而 出 现 了 集群 存储 、 集 群 并 行 存储 、P2P 存储 、 面 向 对 
象 存储 等 多 种 存储 结构 。 

1. 集群 存储 

集群 存储 , 简 言 之 就 是 将 若干 个 普通 性 能 的 存储 系统 联合 起 来 组 成 “存储 的 集群 ”。 
集群 存储 采用 开放 式 的 架构 ,具有 很 高 扩展 性 ,一 般 包括 存储 结 点 ,前 端 网 络 .后 端 网 络 三 
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个 构成 元 素 ,每 个 元 素 都 可 以 非常 容易 地 进行 扩展 和 升级 ,而 不 用 改变 集群 存储 的 架构 。 
集群 存储 通过 分 布 式 操作 系统 的 作用 ,会 在 前 端 和 后 端 都 实现 负载 均衡 。 

2. 集群 并 行 存储 

集群 并 行 存储 采用 了 分 布 式 文件 系统 混合 并 行文 件 系统 。 并 行 存储 容许 客户 端 和 存 
储 直接 打交道 ,这 样 可 以 极 大 地 提高 性 能 。 集 群 并 行 存储 提高 了 并 行 或 分 区 1/O 的 整体 
性 能 ,特别 是 读 取 操作 密集 型 以 及 大 型 文件 的 访问 。 获 取 更 大 的 命名 空间 或 可 编 址 的 阵 
列 。 通 过 在 相互 独立 的 存储 设备 上 复制 数据 来 提高 可 用 性 。 通 过 廉价 的 集群 存储 系统 来 
大 幅 降低 成 本 ,并 解决 扩展 性 方面 的 难题 。 集 群 存储 多 在 大 型 数据 中 心 或 高 性 能 计算 中 
心 使 用 。 

3. P2P 存储 

用 P2P 的 方式 在 广域网 中 构建 大 规模 分 布 式 存储 系统 。 从 体系 结构 来 看 ,系统 采用 
无 中 心 结构 , 结 点 之 间 对 等 ,通过 互相 合作 来 完成 用 户 任 务 。 用 户 通过 该 平台 自主 寻找 其 
他 结 点 进行 数据 备份 和 存储 空间 交换 ,为 用 户 构 建 了 大 规模 存储 交换 的 系统 平台 。P2P 
存储 用 于 构建 更 大 规模 的 分 布 式 存储 系统 ,可 以 跨 多 个 大 型 数据 中 心 或 高 性 能 计算 中 心 
使 用 。 

4. 面向 对 象 存储 


面向 对 象 存储 是 SAN 和 NAS 的 有 机 结合 ,是 一 种 存储 系统 的 发 展 趋势 。 在 面向 对 
象 存储 中 ,文件 系统 中 的 用 户 组 件 部 分 基本 与 传统 文件 系统 相同 ,而 将 文件 系统 中 的 存储 
组 件 部 分 下 移 到 智能 存储 设备 上 ,于 是 用 户 对 于 存储 设备 的 访问 接口 由 传统 的 块 接口 变 
为 对 象 接口 。 


4.3.2 典型 系统 


基于 多 种 分 布 式 文件 系统 的 研究 成 果 , 人 们 对 体系 结构 的 认识 不 断 深 入 ,分 布 式 文件 
系统 在 体系 结构 .系统 规模 ,性 能 .可 扩展 性 .可 用 性 等 方面 经 历 了 较 大 的 变化 。 下 面 按时 
间 顺 序 介绍 几 个 分 布 式 文件 系统 的 典型 应 用 。 

1. NFS 


1985 年 出 现 的 NFS 受到 了 广泛 的 关注 和 认可 ,被 移植 到 了 几乎 所 有 主流 的 操作 系 
统 , 成 为 分 布 式 文件 系统 事实 上 的 标准 。NFS 利用 UNIX 系统 中 的 虚拟 文件 系统 
(Virtual File System,VFS) 机 制 ,将 客户 机 对 文件 系统 的 请 求 , 通 过 规范 的 文件 访问 协议 
和 远程 过 程 调 用 ,转发 到 服务 器 端 进行 处 理 ; 服 务 器 端 在 VFS 之 上 ,通过 本 地 文件 系统 完 
成 文件 的 处 理 , 实 现 了 全 局 的 分 布 式 文件 系统 。Sun 公司 公开 了 NFS 的 实施 规范 ,互联 
网 工程 任务 组 (The Internet Engineering Task Force, IETF ) 将 其 列 为 征求 意见 稿 
(Request for Comments,RFC) ,这 在 很 大 程度 上 促使 NFS 的 很 多 设计 实现 方法 成 为 标 
准 , 也 促进 了 NFS 的 流行 。 

2. GPFS 


General Parallel File System(GPFS) 是 目前 应 用 范围 较 广 的 一 个 系统 ,在 系统 设计 
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中 采用 了 多 项 当时 较为 先进 的 技术 。GPFS 的 磁盘 数据 结构 可 以 支持 大 容量 的 文件 系统 
和 大 文件 ,通过 采用 分 片 存储 、 较 大 的 文件 系统 块 .数据 预 读 等 方法 获得 了 较 高 的 数据 乔 
吐 率 ; 采 用 扩展 哈 希 (extensible hashing) 技 术 来 支持 含有 大 量 文件 和 子 目 录 的 大 目录 , 提 
高 文件 的 查找 和 检索 效率 。 

GPFS 采用 不 同 粒度 的 分 布 式 锁 解 决 系统 中 的 并 发 访问 和 数据 同步 问题 : 字 节 范围 
的 锁 用 于 用 户 数据 的 同步 ,动态 选择 元 数据 结 点 (metanode) 进 行 元 数据 的 集中 管理 ; 具 
有 集中 式 线索 的 分 布 式 锁 管理 整个 系统 中 空间 分 配 等 。GPFS 采用 日 志 技术 对 系统 进行 
在 线 灾难 恢复 。 每 个 结 点 都 有 各 自 独立 的 日 志 , 且 单个 结 点 失效 时 ,系统 中 的 其 他 结 点 可 
以 代替 失效 结 点 检查 文件 系统 日 志 , 进 行 元 数据 恢复 操作 。 

GPFS 还 有 效 地 克服 了 系统 中 任意 单个 结 点 的 失效 、 网 络 通信 和 故障、 磁盘 失效 等 异常 
事件 。 此 外 ,GPFS 支持 在 线 动态 添加 减少 存储 设备 ,然后 在 线 重新 平衡 系统 中 的 数据 。 
这 些 特性 在 需要 连续 作业 的 高 端 应 用 中 尤为 重要 。 

3. Storage Tank 


IBM 公司 在 GPFS 的 基础 之 上 发 展 进化 来 的 Storage Tank 以 及 基于 Storage Tank 
的 TotalStorage SAN File System 又 将 分 布 式 文件 系统 的 设计 理念 和 系统 架构 向 前 推进 
了 一 步 。 它 们 除了 具有 一 般 的 分 布 式 文件 系统 的 特性 之 外 ,采用 SAN 作为 整个 文件 系 
统 的 数据 存储 和 传输 路 径 。 它 们 采用 带 外 (out-of-band) 结 构 ,将 文件 系统 元 数据 在 高 速 
以 太 网 上 传输 ,由 专门 的 元 数据 服务 器 来 处 理 和 存储 。 文 件 系统 元 数据 和 文件 数据 的 分 
离 管理 和 存储 ,可 以 更 好 地 利用 各 自 存储 设备 和 传输 网 络 的 特性 ,提高 系统 的 性 能 ,有 效 
降低 系统 的 成 本 。 

Storage Tank 采用 积极 的 缓存 策略 ,尽量 在 客户 端 缓 存 文 件 元 数据 和 数据 。 即 使 打 
开 的 文件 被 关闭 ,都 可 以 在 下 次 使 用 时 利用 已 经 缓存 的 文件 信息 ,整个 文件 系统 由 管理 员 
按照 目录 结构 划分 成 多 个 文件 集 (fileset) 。 每 一 个 文件 集 都 是 一 个 相对 独立 的 整体 ,可 
以 进行 独立 的 元 数据 处 理 和 文件 系统 备份 等 。 不 同 的 文件 集 可 以 分 配 到 不 同 的 元 数据 服 
务 器 处 理 ,形成 元 数据 服务 器 机 群 ,提供 系统 的 扩展 性 .性 能 .可 用 性 等 。 

在 TotalStorage 中 , 块 虚拟 层 将 整个 SAN 的 存储 进行 统一 的 虚拟 管理 ,为 文件 系统 
提供 统一 的 存储 空间 。 这 样 的 分 层 结 构 有 利于 简化 文件 系统 的 设计 和 实现 。 同 时 ,它们 
的 客户 端 支持 多 种 操作 系统 ,是 一 个 支持 异 构 环 境 的 分 布 式 文件 系统 。 在 SAN File 
System, 采 用 了 基于 策略 的 文件 数据 位 置 选择 方法 ,能 有 效 地 利用 系统 的 资源 、 提 高 性 
能 、 降 低 成 本 。 


4. GFS 


GFS(Google File System) 系统 集 群 由 一 个 master 结 点 和 大 量 的 chunkserver 结 点 
构成 ,并 被 许多 客户 (Client) 访 问 。GFS 把 文件 分 成 64MB 的 块 ,减少 了 元 数据 的 大 小 ， 
使 Master 结 点 能 够 非常 方便 地 将 元 数据 放置 在 内 存 中 以 提升 访问 效率 。 数 据 块 分 布 在 
集群 的 机 器 上 ,使 用 Linux 的 文件 系统 存放 ,同时 每 块 文件 至 少 有 3 份 以 上 的 宛 余 。 考 虑 
到 文件 很 少 被 删 减 或 者 覆盖 ,文件 操作 以 添加 为 主 , 充 分 考虑 了 硬盘 线性 吞吐 量 大 和 随机 
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中 心 是 一 个 Master 结 点 ,根据 文件 索引 ,找寻 文件 块 。 系 统 保证 每 个 Master 都 会 有 
相应 的 复制 品 ,以 便于 在 Master 结 点 出 现 问 题 时 进行 切换 。 在 Chunk 层 ,GFS 将 结 点 失 
败 视 为 常态 ,能 够 非常 好 地 处 理 Chunk 结 点 失效 的 问题 。 对 于 那些 稍 旧 的 文件 ,可 以 通 
过 对 它 进行 压缩 ,来 节省 硬盘 空间 , 且 压 缩 率 依 人 ,有 时 甚至 可 以 接近 90%。 为 了 保证 大 
规模 数据 的 高 速 并 行 处 理 , 引 入 了 MapReduce 编程 模型 ,同时 ,由 于 MapReduce 将 很 多 
烦琐 的 细节 隐藏 起 来 ,也 极 大 地 简化 了 程序 员 的 开发 工作 。 

5. Hadoop 


Yahoo 也 推出 了 基于 MapReduce 的 开源 版 本 Hadoop ,目前 Hadoop 在 业界 已 经 被 
大 规模 使 用 。HDFS(Hadoop Distributed File System) 有 着 高 容错 性 的 特点 ,并 且 设 计 用 
来 部 署 在 低廉 的 硬件 上 ,实现 了 异 构 软 硬 件 平台 间 的 可 移植 性 。 为 了 尽量 减 小 全 局 的 带 
宽 消 耗 读 延 迟 ,HDFS 尝试 返回 给 一 个 读 操作 离 它 最 近 的 副本 。 硬 件 故 障 是 常态 ,而 不 是 
异常 ,自动 地 维护 数据 的 多 份 复 制 , 并 且 在 任务 失败 后 能 自动 地 重新 部 署 计 算 任 务 , 实 现 
了 故障 的 检测 和 自动 快速 恢复 。HDFS 放宽 了 可 移植 操作 系统 接口 (Portable Operating 
System Interface, POSIX) 的 要 求 ,这 样 可 以 流 的 形式 访问 文件 系统 中 的 数据 ,实现 了 以 
流 的 形式 访问 写 入 的 大 型 文件 的 日 的 ,重点 是 在 数据 吞吐 量 , 而 不 是 数据 访问 的 反应 
时 间 。 

HDFS 提供 了 接口 ,来 让 程序 将 自己 移动 到 离 数据 存储 更 近 的 位 置 ,消除 了 网 络 的 拥 
堵 , 提 高 了 系统 的 整体 吞吐 量 。HDFS 的 命名 空间 是 由 名 字 结 点 来 存储 的 。 名 字 结 点 使 
用 叫做 EditLog 的 事务 日 志 来 持久 记录 每 一 个 对 文件 系统 元 数据 的 改变 。 名 字 结 点 在 本 
地 文件 系统 中 用 一 个 文件 来 存储 这 个 EditLog。 整 个 文件 系统 命名 空间 ,包括 文件 块 的 
映射 表 和 文件 系统 的 配置 都 存在 一 个 叫 FsImage 的 文件 中 ,FsImage 也 存放 在 名 字 结 点 
的 本 地 文件 系统 中 。FsImage 和 Editlog 是 HDFS 的 核心 数据 结构 。 


4.4 云 存储 


面 对 大 数据 的 海量 异 构 数据 ,传统 存储 技术 面临 建设 成 本 高 . 运 维 复杂 、 扩 展 性 有 限 
等 问题 ,成 本 低廉 ,提供 高 可 扩展 性 的 云 存 储 技术 日 益 得 到 关注 。 

1. 定义 

由 于 业内 没有 统一 的 标准 ,各 厂商 的 技术 发 展 路 线 也 不 尽 相同 ,因此 相对 于 云 计算 ， 
云 存储 概念 存在 更 多 的 多 义 和 模 糊 现象 结合 云 存 储 技术 发 展 背 景 及 主流 厂商 的 技术 方 
向 ,可 以 得 出 如 下 定义 : 云 存 储 是 通过 集群 应 用 、 网 格 技术 或 分 布 式 文件 系统 等 ,将 网 络 
中 大 量 各 种 不 同 的 存储 设备 通过 应 用 软件 集合 起 来 协同 工作 ,共同 对 外 提供 数据 存储 和 
业务 访问 功能 的 一 个 系统 。 

2. 云 存 储 架 构 

云 存储 是 由 一 个 网 络 设备 ,存储 设备 ,服务 器 、 应 用 软件 ,公用 访问 接口 . 接 入 网 和 客 
户 端 程序 等 组 成 的 复杂 系统 。 以 存储 设备 为 核心 ,通过 应 用 软件 来 对 外 提供 数据 存储 和 
业务 访问 服务 。 云 存储 的 架构 如 图 4. 1 所 示 。 
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访问 层 | 务 运 营 商 空 集中 存储 、 网 站 
间 租赁 等 储 、 远 程 共享 大 容量 在 线 存储 等 
应 用 网 络 接 入 、 用 户 认证 、 权 限 管理 公用 API 
接口 层 接口 、 应 用 软件 、Web Service 等 
基础 集群 系统 内 容 分 发 、P2P 数据 加 密 
管 表情 | 分布 式 文件 系统 || 重复 数据 出 除 数据 备份 
网 络 计算 数据 压缩 数据 容 灾 
存储 层 | 存储 虚拟 化 、 存 储 集中 管理 、 状态 监控 、 维护 升级 、 存 储 设备 
4.1 云 存储 架构 
1) 存储 层 


存储 设备 数量 庞大 且 分 布 在 不 同 地 域 ,彼此 通过 广域网 .互联 网 或 光纤 通道 网 络 连接 
在 一 起 。 在 存储 设备 之 上 是 一 个 统一 存储 设备 管理 系统 ,实现 存储 设备 的 逻辑 虚拟 化 管 
理 、 多 链 路 宛 余 管 理 , 以 及 硬件 设备 的 状态 监控 和 故障 维护 。 

2) 基础 管理 层 

通过 集群 ,分 布 式 文件 系统 和 网 格 计算 等 技术 ,实现 云 存储 设备 之 间 的 协同 工作 ,使 
多 个 存储 设备 可 以 对 外 提供 同一 种 服务 ,并 提供 更 大 、 更 强 、 更 好 的 数据 访问 性 能 。 数 据 
加 密 技术 保证 云 存储 中 的 数据 不 会 被 未 授权 的 用 户 访问 ,数据 备份 和 容 灾 技 术 可 以 保证 
云 存 储 中 的 数据 不 会 丢失 ,保证 云 存储 自身 的 安全 和 稳定 。 

3) 应 用 接口 层 

不 同 的 云 存储 运营 商 根据 业务 类 型 ,开发 不 同 的 服务 接口 ,提供 不 同 的 服务 。 例 如 视 
频 监 控 、 视 频 点 播 应 用 平台 、 网 络 硬盘 ,远程 数据 备份 应 用 等 。 

4) 访问 层 

授权 用 户 可 以 通过 标准 的 公用 应 用 接口 来 登录 云 存 储 系统 ,享受 云 存储 服务 。 

3. 云 存储 中 的 数据 缩减 技术 

大 数据 时 代 云 存储 技术 的 关键 技术 主要 有 云 存储 中 的 存储 虚拟 化 、 分 布 式 存储 技术 、 
数据 备份 .数据 缩减 技术 内容 分 发 网 络 技术 .数据 迁移 .数据 容错 技术 等 技术 ,而 其 中 云 
存储 的 数据 缩减 技术 ,能 够 满足 海量 信息 爆炸 式 增长 趋势 ,在 一 定 程度 上 节约 企业 存储 成 
本 ,提高 效率 ,从 而 成 为 人 们 关注 的 重点 。 

1) 自动 精简 配置 

传统 配置 技术 为 了 避免 重新 配置 可 能 造成 的 业务 中 断 ,常常 会 过 度 配 置 容 量 。 在 这 
种 情况 下 ,一旦 存储 分 配给 某 个 应 用 ,就 不 可 能 重新 分 配给 另 一 个 应 用 ,由 此 造成 已 分 配 
的 容量 没有 得 到 充分 利用 ,造成 资源 极 大 浪费 。 自 动 精简 配置 技术 利用 虚拟 化 方法 减少 
物理 存储 空间 的 分 配 ,最 大 限度 地 提升 存储 空间 利用 率 , 其 核心 原理 是 “欺骗 "操作 系统 ， 
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让 操作 系统 认为 存储 设备 中 有 很 大 的 存储 空间 ,而 实际 的 物理 存储 空间 则 没有 那么 大 。 
自动 精简 配置 技术 的 应 用 会 减少 已 分 配 但 未 使 用 的 存储 容量 的 浪费 ,在 分 配 存储 空间 时 ， 
需要 多 少 存储 空间 系统 则 按 需 分 配 。 随 着 数据 存储 的 信息 量 越 来 越 多 ,实际 存储 空间 也 
可 以 及 时 扩展 ,无 须 用 户 手 动 处 理 。 

2) 自动 存储 分 层 

自动 存储 分 层 技术 是 存储 上 减少 数据 的 另外 一 种 机 制 , 主 要 用 来 帮助 数据 中 心 最 大 
限度 地 降低 成 本 和 复杂 性 。 在 过 去 ,进行 数据 移动 主要 依靠 手工 操作 ,由 管理 员 来 判断 这 
个 卷 的 数据 访问 压力 或 大 或 小 ,迁移 的 时 候 也 只 能 一 个 整 卷 一 起 迁移 。 自 动 存储 分 层 技 
术 的 特点 则 是 其 分 层 的 自动 化 和 智能 化 。 利 用 自动 存储 分 层 技术 一 个 磁盘 阵列 能 够 把 活 
动 数 据 保留 在 快速 .昂贵 的 存储 上 ,把 不 活跃 的 数据 迁移 到 廉价 的 低速 层 上 ,使 用 户 数据 
保留 在 合适 的 存储 层级 ,减少 了 存储 需求 的 总 量 , 降 低 了 成 本 ,提升 了 性 能 。 随 着 固态 存 
储 在 当前 磁盘 阵列 中 的 采用 以 及 云 存储 的 来 临 ,自动 存储 分 层 已 经 成 为 大 数据 时 代 补充 
内 部 部 署 的 存储 的 主要 方式 。 

3) 重复 数据 删除 

物理 存储 设备 在 使 用 一 段 时 间 后 必然 会 出 现 大 量 重复 的 数据 .“ 重 复 删 除 技 术 (De- 
duplication) 作 为 一 种 数据 缩减 技术 可 对 存储 容量 进行 优化 。 它 通过 删除 数据 集中 重复 
的 数据 ,只 保留 其 中 一 份 ,从 而 消除 宛 余数 据 。 使 用 De-dupe 技术 可 以 将 数据 缩减 到 原来 
的 1/20~1/50。 由 于 大 幅度 减少 了 对 物理 存储 空间 的 信息 量 ,从 而 达到 减少 传输 过 程 中 
的 网 络 带宽 ,节约 设备 成 本 、 降 低能 耗 的 目的 。 重 复数 据 删除 技术 原理 De-dupe 按照 消 重 
的 粒度 可 以 分 为 文件 级 和 数据 块 级 。 可 以 同时 使 用 两 种 以 上 的 Hash 算法 计算 数据 指 
纹 ,以 获得 非常 小 的 数据 碰撞 发 生 概 率 。 具 有 相同 指纹 的 数据 块 即 可 认为 是 相同 的 数据 
块 , 存 储 系统 中 仅 需要 保留 一 份 。 这 样 ,一 个 物理 文件 在 存储 系统 中 就 只 对 应 一 个 逻辑 

4) 数据 压缩 

数据 压缩 技术 是 提高 数据 存储 效率 最 古老 最 有 效 的 方法 之 一 ,可 以 显著 降低 待 处 
理 和 存储 的 数据 量 ,一 般 情 况 下 可 实现 2 :1~3 :1 的 压缩 比 ,对 于 随机 数据 效果 更 
好 。 其 原理 就 是 将 收 到 的 数据 通过 存储 算法 存储 到 更 小 的 空间 中 去 。 在 线 压缩 
(RACE) 是 最 新 研发 的 数据 压缩 技术 ,与 传统 压缩 技术 不 同 。 对 RACE 技术 来 说 ,不 仅 
能 在 数据 首次 写 人 时 进行 压缩 ,以 帮助 系统 控制 大 量 数 据 在 主 存 中 杂乱 无 章 地 存储 的 
情形 。 还 可 以 在 数据 写 人 到 存储 系统 前 压缩 数据 ,进一步 提高 存储 系统 中 的 磁盘 和 组 
存 的 性 能 和 效率 。 

数据 压缩 中 使 用 的 LZS 算法 基于 L277 实现 ,主要 由 两 部 分 构成 : 滑 窗 (Sliding 
Window) 和 自 适应 编码 (Adaptive Coding) ,如 图 4. 2 所 示 。 压 缩 处 理 时 ,在 滑 窗 中 查找 
与 待 处 理 数据 相同 的 块 , 并 用 该 块 在 滑 窗 中 的 偏 移 值 及 块 长 度 替 代 待 处 理 数据 ,从 而 实现 
压缩 编码 。 如 果 滑 窗 中 没有 与 待 处 理 数据 块 相 同 的 字段 ,或 偏 移 值 及 长 度数 据 超过 被 替 
代数 据 块 的 长 度 , 则 不 进行 替代 处 理 。LZS 算法 的 实现 非常 简洁 ,处 理 比 较 简单 ,能够 适 
应 各 种 高 速 应 用 。 
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4.2 L2777 算法 示意 图 


4.5 数据 库 


数据 库 (Database) 是 按照 数据 结构 来 组 织 .存储 和 管理 数据 的 仓库 , 它 产生 于 距 今 六 
十 多 年 前 , 随 着 信息 技术 和 市 场 的 发 展 ,特别 是 20 世纪 90 年 代 以 后 ,数据 管理 不 再 仅仅 
是 存储 和 管理 数据 ,而 转变 成 用 户 所 需要 的 各 种 数据 管理 的 方式 。 数 据 库 有 很 多 种 类 型 ， 
从 最 简单 的 存储 有 各 种 数据 的 表格 到 能 够 进行 海量 数据 存储 的 大 型 数据 库 系统 ,都 在 各 
个 方面 得 到 了 广泛 的 应 用 。 

在 信息 化 社会 ,充分 有 效 地 管理 和 利用 各 类 信息 资源 ,是 进行 科学 研究 和 决策 管理 的 
前 提 条 件 。 数 据 库 技术 是 管理 信息 系统 、 办 公 自动 化 系统 、 决 策 支持 系统 等 各 类 信息 系统 
的 核心 部 分 ,是 进行 科学 研究 和 决策 管理 的 重要 技术 手段 。 


4.5.1 数据 库 分 类 


数据 库 通常 分 为 层次 式 数据 库 、 网 络 式 数据 库 和 关系 式 数据 库 三 种 。 而 不 同 的 数据 
库 是 按 不 同 的 数据 结构 来 联系 和 组 织 的 。 


1. 数据 结构 模型 


1) 数据 结构 

所 谓 数据 结构 ,是 指数 据 的 组 织 形式 或 数据 之 间 的 联系 。 

如 果 用 DD 表示 数据 ,用 R 表示 数据 对 象 之 间 存 在 的 关系 集合 , 则 将 DS==(D,R) 称 为 
数据 结构 。 

例如 , 设 有 一 个 电话 号 码 敌 , 它 记录 了 个 人 的 名 字 和 相应 的 电话 号 码 。 为 了 方便 地 
查找 某 人 的 电话 号 码 , 将 人 名 和 号 码 按 字典 顺序 排列 ,并 在 名 字 的 后 面 跟 随 着 对 应 的 电话 
号 码 。 这 样 , 若 要 查找 某 人 的 电话 号 码 ( 假 定 他 的 名 字 的 第 一 个 字母 是 Y) ,那么 只 需 查 找 
以 YY 开头 的 那些 名 字 就 可 以 了 。 该 例 中 ,数据 的 集合 D 就 是 人 名 和 电话 号 码 , 它 们 之 间 
的 联系 R 就 是 按 字典 顺序 的 排列 ,其 相应 的 数据 结构 就 是 DS 二 (D,R), 即 一 个 数组 。 

2) 数据 结构 类 型 

数据 结构 又 分 为 数据 的 逻辑 结构 和 数据 的 物理 结构 。 

数据 的 逻辑 结构 是 从 逻辑 的 角度 ( 即 数 据 间 的 联系 和 组 织 方 式 ) 来 观察 数据 .分 析 数 
据 , 与 数据 的 存储 位 置 无 关 ; 数 据 的 物理 结构 是 指数 据 在 计算 机 中 存放 的 结构 , 即 数据 的 
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逻辑 结构 在 计算 机 中 的 实现 形式 ,所 以 物理 结构 也 被 称 为 存储 结构 。 

这 里 只 研究 数据 的 逻辑 结构 ,并 将 反映 和 实现 数据 联系 的 方法 称 为 数据 模型 。 

比较 流行 的 数据 模型 有 三 种 , 即 按 图 论 理论 建立 的 层次 结构 模型 .网 状 结构 模型 以 及 
按 关系 理论 建立 的 关系 结构 模型 。 

2. 层次 .网 状 和 关系 数据 库 系统 

1) 层次 结构 模型 

层次 结构 模型 实质 上 是 一 种 有 根 结 点 的 定向 有 序 树 (在 数学 中 * 树 ”被 定义 为 一 个 无 
回 的 连通 图 ) 。 例 如 一 个 高 等 学 校 的 组 织 结构 就 像 一 棵 树 , 校 部 就 是 树 根 ( 称 为 根 结 点 )， 
各 系 、 专 业 ,教师 ,学生 等 为 枝 点 ( 称 为 结 点 ) , 树 根 与 枝 点 之 问 的 联系 称 为 边 , 树 根 与 边 之 
比 为 1 : N, 即 树 根 只 有 一 个 ,树枝 有 N 个 。 

按照 层次 模型 建立 的 数据 库 系统 称 为 层次 模型 数据 库 系 统 。IMS (Information 
Management System) 是 其 典型 代表 。 

2) 网 状 结构 模型 

按照 网 状 数据 结构 建立 的 数据 库 系 统称 为 网 状 数据 库 系统 ,其 典型 代表 是 DBTG 
(Database Task Group)。 用 数学 方法 可 将 网 状 数据 结构 转化 为 层次 数据 结构 。 

3) 关系 结构 模型 

关系 式 数据 结构 把 一 些 复杂 的 数据 结构 归结 为 简单 的 二 元 关系 ( 即 二 维 表格 形式 )。 
例如 某 单位 的 职工 关系 就 是 一 个 二 元 关系 。 

由 关系 数据 结构 组 成 的 数据 库 系统 被 称 为 关系 数据 库 系 统 。 

在 关系 数据 库 中 ,对 数据 的 操作 几乎 全 部 建立 在 一 个 或 多 个 关系 表格 上 ,通过 对 这 些 
关系 表格 的 分 类 .合并 .连接 或 选取 等 运算 来 实现 数据 的 管理 。 

因此 ,可 以 概括 地 说 ,一 个 关系 称 为 一 个 数据 库 ,若干 个 数据 库 可 以 构成 一 个 数据 库 
系统 。 数 据 库 系统 可 以 派生 出 各 种 不 同类 型 的 辅助 文件 和 建立 它 的 应 用 系统 。 


4.5.2 常规 SQL 结构 化 关系 数据 库 


结构 化 查询 语言 (Structured Query Language) 简称 SQL (发 音 : /es kju:el/) ,是 一 
种 特殊 目的 的 编程 语言 ,是 一 种 数据 库 查 询 和 程序 设计 语言 ,用 于 存 取 数 据 以 及 查询 、 更 
新 和 管理 关系 数据 库 系 统 ;同时 也 是 数据 库 脚 本 文件 的 扩展 名 。 

结构 化 查询 语言 是 高 级 的 非 过 程 化 编程 语言 ,允许 用 户 在 高 层 数 据 结构 上 工作 。 它 
不 要 求 用 户 指 定 对 数据 的 存放 方法 ,也 不 需要 用 户 了 解 具体 的 数据 存放 方式 ,所 以 具有 完 
全 不 同 底层 结构 的 不 同 数据 库 系统 ,可 以 使 用 相同 的 结构 化 查询 语言 作为 数据 输入 与 管 
理 的 接口 。 结 构 化 查询 语言 语句 可 以 嵌 套 ,这 使 它 具 有 极 大 的 灵活 性 和 强大 的 功能 。 

结构 化 查询 语言 中 的 五 种 数据 类 型 : 字符 型 .文本 型 数值 型 .逻辑 型 和 日 期 型 。 


4.5.3 NoSQL 非 结 构 化 数据 库 


NoSQL, 泛 指 非 关系 型 的 数据 库 。 随 着 互联 网 Web 2. 0 网 站 的 兴起 ,传统 的 关系 数 
据 库 在 应 付 Web 2.0 网 站 ,特别 是 超大 规模 和 高 并 发 的 SNS 类 型 的 Web 2. 0 纯 动态 网 
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站 已 经 显得 力不从心 ,暴露 了 很 多 难以 克服 的 问题 ,而 非 关系 型 的 数据 库 则 由 于 其 本 身 的 
特点 得 到 了 非常 迅速 的 发 展 。NoSQL 数据 库 的 产生 就 是 为 了 解决 大 规模 数据 集合 多 重 
数据 种 类 带 来 的 挑战 ,尤其 是 大 数据 应 用 难题 。 

NoSQL(Not Only SQL) , 意 即 * 不 仅仅 是 SQL”, 是 一 项 全 新 的 数据 库 革命 性 运动 ， 
早期 就 有 人 提出 ,发 展 至 2009 年 其 趋势 越发 高 涨 。NoSQL 的 拥护 者 们 提倡 运用 非 关 系 
型 的 数据 存储 ,相对 于 铺天盖地 的 关系 型 数据 库 运用 ,这 一 概念 无 疑 是 一 种 全 新 的 思维 的 
注入。 

这 种 称 为 NoSQL 的 新 形式 的 数据 库 (Not Only SQL) 像 Hadoop 一 样 ,可 以 处 理 大 
量 的 多 结构 化 数据 。 但 是 ,如 果 说 Hadoop 擅长 支持 大 规模 .批量 式 的 历史 分 析 , 在 大 多 
数 情况 下 (虽然 也 有 一 些 例外 ),NoSQL 数据 库 的 目的 是 为 最 终 用 户 和 自动 化 的 大 数据 
应 用 程序 提供 大 量 存储 在 多 结构 化 数据 中 的 离散 数据 。 这 种 能 力 是 关系 型 数据 库 欠 缺 
的 , 它 根 本 无 法 在 大 数据 规模 维持 基本 的 性 能 水 平 。 

在 某 些 情况 下 ,NoSQL 和 Hadoop 协同 工作 。 例 如 ,HBase 是 流行 的 NoSQL 数据 
库 , 它 仿照 Google 的 BigTable, 通 常 部 署 在 HDFS(Hadoop 分 布 式 文件 系统 ) 之 上 ,为 
Hadoop 提供 低 延 迟 的 快速 查找 功能 。 

目前 可 用 的 NoSQL 数据 库 包括 : HBase、Cassandra、MarkLogic、Aerospike、 
MongoDB 、Accumulo 、Riak .CouchDB 、DynamoDB。 

目前 大 多 数 NoSQL 数据 库 的 缺点 是 : 为 了 性 能 和 可 扩展 性 ,它们 遵从 ACID( 原 子 
性 ,一致 性 ,隔离 性 ,持久 性 ) 原 则 。 许 多 NoSQL 数据 库 还 缺乏 成 熟 的 管理 和 监控 工具 。 

1. NoSQL 数据 库 的 四 大 分 类 

1) 键 值 (Key-Value) 存 储 数据 库 

这 一 类 数据 库 主要 会 使 用 到 一 个 哈 希 表 , 这 个 表 中 有 一 个 特定 的 键 和 一 个 指针 指向 
特定 的 数据 。Key-Value 模型 对 于 IT 系统 来 说 的 优势 在 于 简单 、. 易 部 署 。 但 是 如 果 
DBA 只 对 部 分 值 进行 查询 或 更 新 的 时 候 , Key-Value 就 显得 效率 低下 了 。 如 Tokyo 
Cabinet/Tyrant ,Redis、 Voldemort .Oracle BDB., 

2) 列 存储 数据 库 

这 部 分 数据 库 通常 是 用 来 应 对 分 布 式 存储 的 海量 数据 。 键 仍然 存在 ,但 是 它们 的 特 
点 是 指向 了 多 个 列 。 这 些 列 是 由 列 家 族 来 安排 的 。 如 Cassandra、HBase、Riak。 

3) 文档 型 数据 库 

文档 型 数据 库 的 灵感 是 来 自 于 Lotus Notes 办 公 软 件 的 ,而 且 它 同 第 一 种 键 值 存储 
相 类 似 。 该 类 型 的 数据 模型 是 版 本 化 的 文档 , 半 结 构 化 的 文档 以 特定 的 格式 存储 ,比如 
JSON。 文档 型 数据 库 可 以 看 作 是 键 值 数据 库 的 升级 版 ,允许 之 间 嵌 套 键 值 。 而 且 文档 型 
数据 库 比 键 值 数据 库 的 查询 效率 更 高 。 如 CouchDB、MongoDb。 国 内 也 有 文档 型 数据 库 
SequoiaDB, 已 经 开源 。 

4) 图 形 (Graph) 数 据 库 

图 形 结构 的 数据 库 同 其 他 行列 以 及 刚性 结构 的 SQL 数据 库 不 同 , 它 是 使 用 灵活 的 图 
形 模 型 ,并 且 能 够 扩展 到 多 个 服务 器 上 。NoSQL 数据 库 没有 标准 的 查询 语言 (SQL) , 因 
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此 进行 数据 库 查 询 需 要 制定 数据 模型 。 许 多 NoSQL 数据 库 都 有 REST 式 的 数据 接口 或 
者 查询 API。 如 Neo4J InfoGrid Infinite Graph 。 


2. NoSQL 数据 库 的 四 大 分 类 表格 分 析 
常见 的 NoSQL 数据 库 可 分 为 四 大 类 ,为 便于 说 明 , 列 出 表 4.5。 
表 4.5 NoSQL 数据 库 的 四 大 分 类 





























分 类 Examples 举例 | 典型 应 用 场景 数据 模型 优 点 缺 点 
Tokyo Cabinet/ a Key 指向 Value 数据 无 结构 化 ， 
键 值 Tyrant, Redis, 据 的 高 访问 负 的 键 值 对 ,通常 查找 速度 快 通常 只 被 当 作 字 
(key-value) | Voldemort, 用 hash table 来 符 串 或 者 二 进 制 
Oracle BDB | 载 ,也 用 于 一 些 | 实现 数据 
日 志 系统 等 等 
查找 速度 快 ,可 
列 存储 数 | Cassandra， | 分 布 式 的 文件 | 内角 下 合 ， 扩展 性 强 ,更 容 | 和 和 寺 司 了 
据 库 HBase, Riak 系统 易 进 行 分 布 式 
存在 一 起 
扩展 
Web 应 用 (与 数据 结构 要 求 
Key-Value 类 似 , | Key-Value 对 | 不 严格 , 表 结构 
文档 型 数 | CouchDB， 。 | Value 是 结构 化 | 应 的 键 值 对 ,| 可 变 , 不 需要 像 | 可 训 生 生生 
据 库 MongoDb 的 ,不 同 的 是 数 | Value 为 结构 | 关系 型 数据 库 查询 语法 
据 库 能 够 了 解 | 化 数据 一 样 需要 预先 | 
Value 的 内 容 ) 定义 表 结 构 
图 形 Neo4J， 社交 网 络 , 推 荐 关 算 法 。 比 如 能 得 出 需要 的 信 
(Graph) | InfoGrid， 系统 等 。 专 注 于 | 图 结构 最 短路 径 寻 址 ，| 外 he 
数据 库 Infinite Graph | 构建 关系 图 谱 关系 查 构 不 太 好 做 分 布 
式 的 集群 方案 
3. 适用 场景 


NoSQL 数据 库 在 以 下 的 这 几 种 情况 下 比较 适用 : 
(1) 数据 模型 比较 简单 ， 

(2) 需要 灵活 性 更 强 的 IT 系统 ; 
(3) 对 数据 库 性 能 要 求 较 高 ; 
(4) 不 需要 高 度 的 数据 一 致 性 ; 
(5) 对 于 给 定 key, 比 较 容易 映射 复杂 值 的 环境 。 


4.5.4 NoSQL 技术 


在 大 数据 时 代 , Web 2. 0 网 站 要 根据 用 户 个 性 化 信息 来 实时 生成 动态 页 面 和 提供 动 
态 信息 ,所 以 基本 上 无 法 使 用 动态 页 面 静态 化 技术 ,因此 数据 库 并 发 负载 非常 高 ,往往 要 
达到 每 秒 上 万 次 读 写 请 求 。 关 系数 据 库 应 付 上 万 次 SQL 查询 还 勉强 顶 得 住 ,但 是 应 付 上 
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万 次 SQL 写 数据 请 求 ,硬盘 I/O 就 已 经 无 法 承受 了 。 

对 于 大 型 的 SNS 网 站 ,每 天 用 户 产生 海量 的 用 户 动 态 ,对 于 关系 数据 库 来 说 ,在 庞大 
的 表 里 面 进行 SQL 查询 ,效率 是 极其 低下 乃至 不 可 忍 受 的 。 

此 外 ,在 基于 Web 的 架构 当中 ,数据 库 是 最 难 进行 横向 扩展 的 , 当 一 个 应 用 系统 的 用 
户 量 和 访问 量 与 日 俱 增 的 时 候 , 你 的 数据 库 却 没有 办 法 像 Web Server 和 App Server 那 
样 简单 地 通过 添加 更 多 的 硬件 和 服务 结 点 来 扩展 性 能 和 负载 能 力 。 对 于 很 多 需要 提供 
24 小 时 不 间断 服务 的 网 站 来 说 ,对 数据 库 系统 进行 升级 和 扩展 是 非常 痛苦 的 事情 ,往往 
需要 停机 维护 和 数据 迁移 ,为 什么 数据 库 不 能 通过 不 断 地 添加 服务 器 结 点 来 实现 扩展 呢 ? 

所 以 上 面 提 到 的 这 些 问题 和 挑战 都 在 催生 一 种 新 型 数据 库 技 术 的 诞生 ,这 就 是 
NoSQL 技术 。 

1. NoSQL 与 关系 型 数据 库 设 计 理念 比较 

关系 型 数据 库 中 的 表 都 是 存储 一 些 格式 化 的 数据 结构 ,每 个 元 组 字段 的 组 成 都 一 样 ， 
即使 不 是 每 个 元 组 都 需要 所 有 的 字段 ,但 数据 库 会 为 每 个 元 组 分 配 所 有 的 字段 ,这 样 的 结 
构 便 于 表 与 表 之 间 进 行 连接 等 操作 ,但 从 另 一 个 角度 来 说 它 也 是 关系 型 数据 库 性 能 瓶颈 
的 一 个 因素 。 而 非 关系 型 数据 库 以 键 值 对 存储 , 它 的 结构 不 固定 ,每 一 个 元 组 可 以 有 不 一 
样 的 字段 ,每 个 元 组 可 以 根据 需要 增加 一 些 自己 的 键 值 对 ,这 样 就 不 会 局 限于 固定 的 结 
构 , 可 以 减少 一 些 时 间 和 空间 的 开销 。 

2. NoSQL 技术 特点 


1) 易 扩 展 性 

NoSQL 数据 库 种 类 繁多 ,但 是 一 个 共同 的 特点 都 是 去 掉 关 系数 据 库 的 关系 型 特性 。 
数据 之 间 无 关系 ,这 样 就 非常 容易 扩展 。 无 形 之 间 , 在 架构 的 层面 上 带 来 了 可 扩展 的 
能 力 。 

2) 大 数据 量 ,高 性 能 

NoSQL 数据 库 都 具有 非常 高 的 读 写 性 能 ,尤其 在 大 数据 量 下 ,同样 表现 优秀 。 这 得 
益 于 它 的 无 关系 性 ,数据 库 的 结构 简单 。 一 般 MySQL 使 用 Query Cache, 每 次 表 的 更 新 
Cache 就 失效 ,是 一 种 大 粒度 的 Cache, 在 针对 Web 2.0 的 交互 频繁 的 应 用 ,Cache 性 能 不 
高 。 而 NoSQL 的 Cache 是 记录 级 的 ,是 一 种 细 粒 度 的 Cache, 所 以 NoSQL 在 这 个 层面 
上 来 说 性 能 就 要 高 很 多 了 。 

3) 灵活 的 数据 模型 

NoSQL 无 须 事先 为 要 存储 的 数据 建立 字段 ,随时 可 以 存储 自 定 义 的 数据 格式 。 而 在 
关系 数据 库 里 ,增删 字段 是 一 件 非常 麻烦 的 事情 。 如 果 是 非常 大 数据 量 的 表 ,增加 字段 简 
直 就 是 一 个 亚 梦 。 这 点 在 大 数据 量 的 Web 2. 0 时 代 尤 其 明显 。 高 可 用 : NoSQL 在 不 太 
影响 性 能 的 情况 ,就 可 以 方便 地 实现 高 可 用 的 架构 。 比 如 Cassandra、HBase 模型 ,通过 
复制 模型 也 能 实现 高 可 用 。 

3. CAP 原理 


分 布 式 数据 系统 的 三 要 素 : 一 致 性 (Consistency)、 可 用 性 (Availability) 和 分 区 容忍 
性 (Partition tolerance)。CAP 原理 是 指 , 在 分 布 式 系统 中 ,这 三 个 要 素 最 多 只 能 同时 实 
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现 两 点 ,不 可 能 三 者 兼顾 。 对 于 分 布 式 数据 系统 ,分 区 容忍 性 是 基本 要 求 。 对 于 大 多 数 
Web 应 用 ,牺牲 一 致 性 而 换取 高 可 用 性 ,是 目前 多 数 分 布 式 数据 库 产品 的 方向 。 
4. 几 种 主流 NoSQL 数据 库 


而 互联 网 庞大 的 数据 量 和 极 高 的 峰值 访问 压力 使 得 以 增加 内 存 `.CPU 等 结 点 性 能 的 
垂直 伸缩 方案 (Scale-UP) 走 入 死胡同 ,使 用 大 量 廉价 的 机 器 组 建 水 平 可 扩展 集群 (Scale 
Out) 成 为 绝 大 多 数 互联 网 公司 的 必然 选择 ;廉价 的 机 器 失效 是 正常 的 ,大 规模 的 集群 , 结 
点 之 间 的 网 络 临时 阻 断 也 是 常见 的 ,因此 在 衡量 一 致 性 .可 用 性 和 分 区 容忍 性 时 ,往往 倾 
向 先 满足 后 两 者 ,再 用 其 他 方法 满足 最 终 的 一 致 性 。 在 衡量 CAP 时 , Bigtable 选择 了 
CA, 用 GFS 来 弥补 P,Dynamo 选择 了 AP,C 弱化 为 最 终 一 致 性 (通过 Quorum 或 者 
read-your-write 机 制 ) 。 

1) BigTable 

(1) BigTable 简介 。 

Bigtable 是 一 个 分 布 式 的 结构 化 数据 存储 系统 , 它 被 设计 用 来 处 理 海量 数据 : 通常 
是 分 布 在 数 千 台 普通 服务 器 上 的 PB 级 的 数据 。Google 的 很 多 项 目 使 用 Bigtable 存储 数 
据 , 包 括 Web 索引 、Google Earth、Google Finance 等 。 

(2) 数据 模型 。 

Bigtable 是 一 个 稀 政 的 ,分 布 式 的 ,持久 化 存储 的 多 维度 排序 Map。Map 的 索引 是 行 
关键 字 、 列 关键 字 以 及 时 间 戳 ;Map 中 的 每 个 value 都 是 一 个 未 经 解析 的 byte 数组 。 

一 个 存储 Web 网 页 的 例子 的 表 的 片断 如 下 : 

行 名 : com. cnn. www' 

contents 列 族 : 存放 的 是 网 页 的 内 容 。 

anchor 列 族 : 存放 引用 该 网 页 的 锚 链接 文本 。 

“anchor:cnnsi. com” 列 表示 被 cnnsi. com 引用 。 

“anchhor:my. look. ca” 列 表示 被 my. look. ca 引用 。 

(3) 技术 要 点 。 

基础 : GFS、Chubby、SSTable。 
BigTable 使 用 Google 的 分 布 式 文件 系统 (GFS) 存 储 日 志文 件 和 数据 文件 。 
Chubby 是 一 个 高 可 用 的 ,序列 化 的 分 布 式 锁 服务 组 件 。 
BigTable 内 部 存储 数据 的 文件 是 Google SSTable 格式 的 。 
元 数据 与 数据 都 保存 在 Google FS 中 ,客户 端 通过 Chubby 服务 获得 表格 元 数据 
的 位 置 。 

数据 维护 与 访问 : master server 将 每 个 tablet 的 管理 责任 分 配给 各 个 tablet server， 
tablet 的 分 布 信息 都 保存 在 元 数据 中 ,所 以 客户 端 无 须 通 过 master 来 访问 数据 ,只 需要 
直接 跟 tablet server 通信 。 

Log-structured 数据 组 织 . 写 操作 不 直接 修改 原 有 的 数据 ,而 只 是 将 一 条 记录 添加 到 
commit log 的 末尾 , 读 操作 需要 从 log 中 merge 出 当前 的 数据 版 本 。 具 体 实 现 . SSTable 
和 Memtable(Memtable 即 内 存 表 : 将 新 数据 或 常用 数据 保存 在 内 存 表 , 可 以 减少 磁盘 
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IO 访问 ) 。 

(4) 特点 。 

。 适合 大 规模 海量 数据 ,PB 级 数据 ; 

。 分 布 式 . 并 发 数据 处 理 ,效率 极 高 ; 

。 易于 扩展 ,支持 动态 伸缩 ,适用 于 廉价 设备 ; 

。 适合 于 读 操作 ,不 适合 写 操作 ; 

。 不 适用 于 传统 关系 数据 库 。 

2) Dynamo 

(1) Dynamo 简介 。 

Dynamo 最 初 是 Amazon 所 使 用 的 一 个 私有 的 分 布 式 存储 系统 。 

(2) 设计 要 点 。 

P2P 的 架构 : 区 别 于 Google FS 的 Single Master 架构 ,P2P 架构 无 须 一 个 中 心服 务 
器 来 记录 系统 的 元 数据 。 可 以 根据 应 用 的 需求 自由 调整 Performance (性 能 )、 
Availability( 可 用 性 ) .Durability( 数 据 持 久 性 ) 三 者 的 比例 。 

(3) 技术 要 点 。 

将 所 有 主键 的 哈 希 数值 空间 组 成 一 个 首位 相 接 的 环 状 序列 ,对 于 每 台 机 器 ,随机 赋予 
一 个 哈 希 值 ,不 同 的 机 器 就 会 组 成 一 个 环 状 序列 中 的 不 同 结 点 ,而 该 机 器 就 负责 存储 落 在 
一 段 哈 希 空间 内 的 数据 。 数 据 定位 使 用 一 致 性 喻 希 ; 对 于 一 个 数据 ,首先 计算 其 的 哈 希 
值 ,根据 其 所 落 在 的 某 个 区 段 , 顺 时 针 进 行 查找 ,找到 第 一 台 机 ,该 机 器 就 负责 存储 在 数据 
的 ,对 应 的 存 取 操作 及 宛 余 备份 等 操作 也 有 其 负责 ,以 此 来 实现 数据 在 不 同 机 器 之 间 的 动 
态 分 配 。 

对 于 一 个 环 状 结 点 比如 M 个 结 点 ,比如 一 份 数据 需要 保持 N 个 备份 , 则 该 数据 落 在 
某 个 哈 硕 区 间 内 发 现 的 第 一 个 结 点 负责 后 续 对 应 的 N 一 1 个 结 点 的 数据 备份 (注意 M> 
三 N) ,Vector lock ,人 允许 数据 的 多 个 备份 存在 多 个 版 本 ,提高 写 操作 的 可 用 性 (用 弱 一 臻 
性 来 换取 高 的 可 用 性 ) 分 布 式 存储 系统 对 于 某 个 数据 保存 多 个 备份 ,数据 写 人 要 尽量 保证 
备份 数据 同时 获得 更 新 Dynamo 采取 数据 最 终 一 致 性 ,在 一 定 的 时 间 窗 口中 ,对 数据 的 更 
新 会 传播 到 所 有 备份 中 ,但 是 在 时 间 窗 口内 ,如 果 有 客户 读 取 到 旧 的 数据 ,通过 向 量 时 钟 
(Vector Clock)。 


4.5.5 大 规模 并 行 分 析 数 据 库 


不 同 于 传统 的 数据 仓库 ,大 规模 并 行 分 析 数 据 库 能 够 以 必需 的 最 少 的 数据 建 模 , 快 速 
获取 大 量 的 结构 化 数据 ,可 以 向 外 扩展 以 容纳 TB 甚至 PB 级 数据 。 

对 最 终 用 户 而 言 最 重要 的 是 ,大 规模 并 行 分 析 数 据 库 支持 近乎 实时 的 复杂 SQL 查询 
结果 ,也 叫 交 互 式 查 询 功能 ,而 这 正 是 Hadoop 显著 缺失 的 能 力 。 大 规模 并 行 分 析 数 据 库 
在 某 些 情况 下 支持 近 实 时 的 大 数据 应 用 。 大 规模 并 行 分 析 数 据 库 的 基本 特性 包括 如 下 几 
个 方面 。 

1. 大 规模 并 行 分 析 数 据 库 的 基本 特性 


1) 大 规模 并 行 处 理 的 能 力 
就 像 其 名 字 表 明 的 一 样 ,大 规模 并 行 分 析 数据 库 采 用 大 规模 并 行 处 理 同 时 支持 多 台 
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机 器 上 的 数据 采集 、 处 理 和 查询 。 相 对 传统 的 数据 仓库 具有 更 快 的 性 能 ,传统 数据 仓库 运 
行 在 单一 机 器 上 ,会 受到 数据 采集 这 个 单一 瓶颈 点 的 限制 。 

2) 无 共享 架构 

无 共享 架构 可 确保 分 析 数 据 库 环境 中 没有 单 点 故障 。 在 这 种 架构 下 ,每 个 结 点 独立 
于 其 他 结 点 ,所 以 如 果 一 台 机 器 出 现 故障 ,其 他 机 器 可 以 继续 运行 。 对 大 规模 并 行 处 理 环 
境 而 言 , 这 点 尤其 重要 , 数 百 台 计 算 机 并 行 处 理 数 据 , 偶 尔 出 现 一 台 或 多 台 机 器 失败 是 不 
可 避免 的 。 

3) 列 存储 结构 

大 多 数 大 规模 并 行 分 析 数 据 库 采 用 列 存 储 结构 ,而 大 多 数 关系 型 数据 库 以 行 结 构 存 
储 和 处 理 数 据 。 在 列 存储 环境 中 ,由 包含 必要 数据 的 列 决定 查询 语句 的 “答案 ”, 而 不 是 由 
整 行 的 数据 决定 ,从 而 导致 查询 结果 瞬间 可 以 得 出 。 这 也 意味 着 数据 不 需要 像 传统 的 关 
系数 据 库 那 样 构造 成 整齐 的 表格 。 

4) 强大 的 数据 压缩 功能 

它们 允许 分 析 数 据 库 收 集 和 存储 更 大 量 的 数据 ,而 且 与 传统 数据 库 相 比 占用 更 
少 的 硬件 资源 。 例 如 ,具有 10 比 1 的 压缩 功能 的 数据 库 ,可 以 将 10TB 字 节 的 数据 
压缩 到 1TB。 数 据 编码 (包括 数据 压缩 以 及 相关 的 技术 ) 是 有 效 地 扩展 到 海量 数据 
的 关键 。 

5) 商用 硬件 

像 Hadoop 集群 一 样 ,大 多 数 (肯定 不 是 全 部 ) 大 规模 并 行 分 析 数 据 库 运行 在 戴尔 、 
IBM 等 厂商 现成 的 商用 硬件 上 ,这 使 他 们 能 够 以 具有 成 本 效益 的 方式 向 外 扩展 。 

6) 在 内 存 中 进行 数据 处 理 

有 些 ( 肯 定 不 是 全 部 ) 大 规模 并 行 分 析 数 据 库 使 用 动态 RAM 或 闪存 进行 实时 数据 处 
理 。 有 些 ( 如 SAP HANA 和 Aerospike) 完 全 在 内 存 中 运行 数据 ,而 其 他 则 采用 混合 的 方 
式 , 即 用 较 便 宜 但 低 性 能 的 磁盘 内 存 处 理 “ 冷 ”数据 ,用 动态 RAM 或 闪存 处 理 “ 热 "数据 。 

然而 ,大 规模 并 行 分 析 数据 库 确 实 有 一 些 盲点 。 最 值得 注意 的 是 ,它们 并 非 被 设计 用 
来 存储 .处 理 和 分 析 大 量 的 半 结 构 化 和 非 结 构 化 数据 。 

2. 大 数据 方法 的 互补 


Hadoop .NoSQL 和 大 规模 并 行 分 析 数 据 库 不 是 相互 排斥 的 。 相 反 , 这 三 种 方法 是 互 
补 的 ,彼此 可 以 而 且 应 该 共存 于 许多 企业 。Hadoop 擅长 处 理 和 分 析 大 量 分 布 式 的 非 结 
构 化 数据 ,以 分 批 的 方式 进行 历史 分 析 。NoSQL 数据 库 擅长 为 基于 Web 的 大 数据 应 用 
程序 提供 近 实 时 地 多 结构 化 数据 存储 和 处 理 。 而 大 规模 并 行 分 析 数 据 库 最 擅长 对 大 容量 
的 主流 结构 化 数据 提供 接近 实时 的 分 析 。 

例如 ,Hadoop 完成 的 历史 分 析 可 以 移植 到 分 析 数 据 库 供 进一步 分 析 , 或 者 与 传统 的 
企业 数据 仓库 的 结构 化 数据 进行 集成 。 从 大 数据 分 析 得 到 的 见解 可 以 而 且 应 该 通过 大 数 
据 应 用 实现 产品 化 。 企 业 的 目标 应 该 是 实现 一 个 灵活 的 大 数据 架构 ,在 该 架构 中 ,三 种 技 
术 可 以 尽 可 能 无 颖 地 共享 数据 和 见解 。 
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很 多 预 建 的 连接 器 可 以 帮助 Hadoop 开发 者 和 管理 员 实 现 这 种 数据 集成 ,同时 也 有 
很 多 厂商 (包括 Pivotal Initiative( 原 EMC 的 Greenplum) ,CETAS 和 Teradata Aster) 提 
供 大 数据 应 用 。 这 些 大 数据 应 用 将 Hadoop、 分 析 数 据 库 和 预 配 置 的 硬件 进行 捆绑 ,可 以 
达到 以 最 小 的 调整 实现 快速 部 署 的 目的 。 另 外 一 种 情况 , Hadapt 提供 了 一 个 单一 平台 ， 
这 个 平台 在 相同 的 集群 上 同时 提供 SQL 和 Hadoop/MapReduce 的 处 理 功 能 。Cloudera 
也 在 Impala 和 Hortonworks 项 目 上 通过 开源 倡议 推行 这 一 策略 。 

但 是 ,为 了 充分 利用 大 数据 ,企业 必须 采取 进一步 的 措施 。 也 就 是 说 ,他 们 必须 使 用 
高 级 分 析 技 术 处 理 数据 ,并 以 此 得 出 有 意义 的 见解 。 数 据 科 学 家 通过 届 指 可 数 的 语言 或 
方法 (包括 SAS 和 R) 执 行 这 项 复杂 的 工作 。 分 析 的 结果 可 以 通过 Tableau 这 样 的 工具 
可 视 化 ,也 可 以 通过 大 数据 应 用 程序 进行 操作 ,这 些 大 数据 应 用 程序 包括 自己 开发 的 应 用 
程序 和 现成 的 应 用 程序 。 其 他 厂商 (包括 Platfora 和 Datameer) 正 在 开发 商业 智能 型 的 
应 用 程序 ,这 种 应 用 程序 允许 非 核心 用 户 与 大 数据 直接 交互 。 

底层 的 大 数据 方法 (如 Hadoop、NoSQL 和 大 规模 并 行 分 析 数 据 库 ) 不 仅 本 身 是 互补 
的 ,而 且 与 大 部 分 大 型 企业 现 有 的 数据 管理 技术 互补 。 并 不 建议 企业 为 了 大 数据 方法 而 
“淘汰 并 更 换 ” 企 业 现 有 的 全 部 的 数据 仓库 ,数据 集成 和 其 他 数据 管理 技术 。 

相反 ,必须 像 投资 组 合 经 理 那 样 思考 ,重新 权衡 优先 级 ,为 企业 走向 创新 和 发 展 竟 定 
基础 ,同时 采取 必要 的 措施 减轻 风险 因素 。 用 大 数据 方法 蔡 换 现 有 的 数据 管理 技术 ,只 有 
当 它 的 商业 意义 和 发 展 计划 与 现 有 的 数据 管理 基础 设施 尽 可 能 无 缝 地 整合 时 才 有 意义 。 
最 终日 标 应 该 是 转型 为 现代 数据 架构 。 


4.6 数据 仓库 


数据 仓库 ,英文 名 称 为 Data Warehouse, 可 简写 为 DW 或 DWH。 数 据 仓库 ,是 为 企 
业 所 有 级 别 的 决策 制定 过 程 ,提供 所 有 类 型 数据 支持 的 战略 集合 。 它 是 单个 数据 存储 ,出 
于 分 析 性 报告 和 决策 支持 目的 而 创建 。 为 需要 业务 智能 的 企业 提供 指导 业务 流程 改进 、 
监视 时 间 、 成 本 、 质 量 以 及 控制 。 

数据 仓库 中 的 数据 是 在 对 原 有 分 散 的 数据 库 数 据 抽取 清理 的 基础 上 经 过 系统 加 工 、 
汇总 和 整理 得 到 的 ,必须 消除 源 数据 中 的 不 一 致 性 ,以 保证 数据 仓库 内 的 信息 是 关于 整个 
企业 的 一 致 的 全 局 信息 。 

数据 仓库 的 数据 主要 供 企业 决策 分 析 之 用 ,所 涉及 的 数据 操作 主要 是 数据 查询 ,一 旦 
某 个 数据 进入 数据 仓库 以 后 ,一 般 情况 下 将 被 长 期 保留 ,也 就 是 数据 仓库 中 一 般 有 大 量 的 
查询 操作 ,但 修改 和 删除 操作 很 少 ,通常 只 需要 定期 的 加 载 、 刷 新 。 


4.6.1 数据 仓库 的 概念 


数据 仓库 是 决策 支持 系统 和 联机 分 析 应 用 数据 源 的 结构 化 数据 环境 。 数 据 仓库 研究 
和 解决 从 数据 库 中 获取 信息 的 问题 。 数 据 仓库 的 特征 在 于 面向 主题 ,集成 性 ,稳定 性 和 时 
数据 仓库 的 概念 由 “数据 仓库 之 父 ” 比 尔 。 恩 门 (Bill Inmon) 于 1990 年 提出 ,其 主要 
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功能 仍 是 将 组 织 透 过 资讯 系统 之 联机 事务 处 理 (OLTP) 经 年 累 月 所 累积 的 大 量 资料 , 通 
过 数据 仓库 理论 所 特有 的 资料 储存 架构 ,做 一 有 系统 性 的 分 析 整 理 , 以 利 各 种 分 析 方 法 ， 
如 联机 分 析 处 理 (OLAP) ,数据 挖掘 (Data Mining) 的 进行 ,并 进而 支持 如 决策 支持 系统 
(DSS) ,主管 资讯 系统 (EIS) 的 创建 ,帮助 决策 者 能 快速 有 效 地 从 大 量 资料 中 分 析出 有 价 
值 的 资讯 ,以 利 决策 拟定 及 快速 回应 外 在 环境 变动 ,帮助 建构 商业 智能 (BI) 。 

数据 仓库 是 在 数据 库 已 经 大 量 存在 的 情况 下 ,为 了 进一步 挖掘 数据 资源 .为 了 决策 需 
要 而 产生 的 , 它 并 不 是 所 谓 的 “大 型 数据 库 ?。 数 据 仓 库 的 方案 建设 的 目的 ,是 为 前 端 查询 
和 分 析 作 为 基础 ,由 于 有 较 大 的 元 余 , 所 以 需要 的 存储 也 较 大 。 为 了 更 好 地 为 前 端 应 用 服 
务 ,数据 仓库 往往 有 如 下 特点 。 

1. 效率 足够 高 

数据 仓库 的 分 析 数 据 一 般 分 为 日 . 周 、 月 、 季 ,年 等 ,可 以 看 出 ,日 为 周期 的 数据 要 求 的 
效率 最 高 ,要 求 24 小 时 甚至 12 小 时 内 ,客户 能 看 到 昨天 的 数据 分 析 。 由 于 有 的 企业 每 日 
的 数据 量 很 大 ,设计 不 好 的 数据 仓库 经 常会 出 问题 ,延迟 1 一 3 日 才能 给 出 数据 ,显然 不 
行 的 。 

2. 数据 质量 

数据 仓库 所 提供 的 各 种 信息 ,肯定 要 准确 的 数据 ,但 由 于 数据 仓库 流程 通常 分 为 多 个 
步骤 ,包括 数据 清洗 .装载 ,查询 .展现 等 等 ,复杂 的 架构 会 更 多 层次 ,那么 由 于 数据 源 有 脏 
数据 或 者 代码 不 严谨 ,都 可 以 导致 数据 失真 ,客户 看 到 错误 的 信息 就 可 能 导致 分 析出 错误 
的 决策 ,造成 损失 ,而 不 是 产生 效益 。 

3. 扩展 性 

之 所 以 有 的 大 型 数据 仓库 系统 架构 设计 复杂 ,是 因为 考虑 到 了 未 来 3 一 5 年 的 扩展 
性 ,这 样 的 话 ,未 来 不 用 太 快 花 钱 去 重建 数据 仓库 系统 ,就 能 很 稳定 地 运行 。 主 要 体现 在 
数据 建 模 的 合理 性 上 ,数据 仓库 方案 中 多 出 一 些 中 间 层 ,使 海量 数据 流 有 足够 的 缓冲 ,不 
至 于 数据 量 大 很 多 ,就 运行 不 起 来 了 。 

从 上 面 的 介绍 中 可 以 看 出 ,数据 仓库 技术 可 以 将 企业 多 年 积累 的 数据 唤醒 ,不 仅 为 企 
业 管 理 好 这 些 海 量 数据 ,而 且 挖掘 数据 潜在 的 价值 ,从 而 成 为 通信 企业 运营 维护 系统 的 亮 
点 之 一 。 

从 广义 上 说 ,基于 数据 仓库 的 决策 支持 系统 由 三 个 部 件 组 成 : 数据 仓库 技术 、 联 机 分 
析 处 理 技术 和 数据 挖掘 技术 ,其 中 数据 仓库 技术 是 系统 的 核心 。 


4. 面向 主题 


操作 型 数据 库 的 数据 组 织 面向 事务 处 理 任务 ,各 个 业务 系统 之 间 各 自分 离 , 而 数据 仓 
库 中 的 数据 是 按照 一 定 的 主题 域 进行 组 织 的 。 主 题 是 与 传统 数据 库 的 面向 应 用 相对 应 
的 ,是 一 个 抽象 概念 ,是 在 较 高 层次 上 将 企业 信息 系统 中 的 数据 综合 、 归 类 并 进行 分 析 利 
用 的 抽象 。 每 一 个 主题 对 应 一 个 宏观 的 分 析 领 域 。 数 据 仓库 排除 对 于 决策 无 用 的 数据 ， 
提供 特定 主题 的 简明 视图 。 





第 4 章 大 数据 存储 。 和 33 


4.6.2 数据 仓库 技术 发 展 


企业 的 数据 处 理 大 致 分 为 两 类 : 一 类 是 操作 型 处 理 ,也 称 为 联机 事务 处 理 , 它 是 针对 
具体 业务 在 数据 库 联机 的 日 常 操作 ,通常 对 少数 记录 进行 查询 ,修改 ; 另 一 类 是 分 析 型 处 
理 , 一 般 针对 某 些 主题 的 历史 数据 进行 分 析 ,支持 管理 决策 。 

两 者 具有 不 同 的 特征 ,主要 体现 在 以 下 几 个 方面 。 

1. 处 理性 能 


日 常 业务 涉及 频繁 简单 的 数据 存 取 ,因此 对 操作 型 处 理 的 性 能 要 求 是 比较 高 的 , 需 
要 数据 库 能 够 在 很 短 时 间 内 做 出 反应 。 

2. 数据 集成 

企业 的 操作 型 处 理 通常 较为 分 散 ,传统 数据 库 面向 应 用 的 特性 使 数据 集成 困难 。 

3. 数据 更 新 

操作 型 处 理 主要 由 原子 事务 组 成 ,数据 更 新 频繁 ,需要 并 行 控制 和 恢复 机 制 。 

4. 数据 时 限 

操作 型 处 理 主要 服务 于 日 常 的 业务 操作 。 

5. 数据 综合 

操作 型 处 理 系统 通常 只 具有 简单 的 统计 功能 。 

数据 库 已 经 在 信息 技术 领域 有 了 广泛 的 应 用 ,我们 社会 生活 的 各 个 部 门 , 几 乎 都 有 各 
种 各 样 的 数据 库 保 存 着 与 我 们 的 生活 息息相关 的 各 种 数据 。 作 为 数据 库 的 一 个 分 支 , 数 
据 仓 库 概 念 的 提出 ,相对 于 数据 库 从 时 间 上 就 近 得 多 。 美 国 著名 信息 工程 专家 Willian 
H. Inmon 在 20 世纪 90 年 代 初 提出 了 数据 仓库 概念 的 一 个 表述 ,认为 :“ 一 个 数据 仓库 
通常 是 一 个 面向 主题 的 ,集成 的 、 随 时 间 变 化 的 ,但 信息 本 身 相 对 稳定 的 数据 集合 , 它 用 于 
对 管理 决策 过 程 的 支持 。” 

这 里 的 主题 ,是 指 用 户 使 用 数据 仓库 进行 决策 时 所 关心 的 重点 方面 ,如 收入 、 客 户 、 销 
售 渠道 等 ;所 谓 面 向 主题 ,是 指数 据 仓库 内 的 信息 是 按 主 题 进行 组 织 的 ,而 不 是 像 业 务 支 
撑 系 统 那样 是 按照 业务 功能 进行 组 织 的 。 


4.6.3 数据 仓库 原理 及 构成 
1. 数据 仓库 系统 的 概念 


数据 仓库 系统 是 一 个 系统 的 工程 ,而 不 是 一 件 产品 ,提供 用 户 用 于 决策 支持 的 当前 和 
历史 的 数据 (这 些 数据 在 传统 的 操作 型 数据 库 中 很 难 或 不 能 得 到 ) ,并 通过 联机 分 析 处 理 
(OLAP) ,数据 挖掘 (DM) 和 快速 报表 工具 等 技术 对 这 些 数 据 进 行 处 理 ,为 决策 提供 需要 
的 信息 。 数 据 仓库 技术 是 为 了 有 效 地 把 操作 形 数据 集成 到 统一 的 环境 中 以 提供 决策 型 数 
据 访问 ,并 进行 分 析 、 挖 掘 的 各 种 技术 和 模块 的 总 称 。 

图 4.3 描述 了 一 个 典型 的 数据 仓库 系统 。 
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4.3 典型 的 数据 仓库 系统 


2. 数据 仓库 系统 的 构成 

一 个 典型 的 数据 仓库 系统 主要 有 以 下 几 部 分 构成 : 

1) 数据 仓库 数据 库 

数据 仓库 数据 库 是 整个 数据 仓库 环境 的 核心 ,是 数据 存放 的 地 方 和 提供 对 数据 检索 
的 支持 。 相 对 于 操纵 型 数据 库 来 说 其 突出 的 特点 是 对 海量 数据 的 支持 和 快速 的 检索 
技术 。 

2) 数据 抽取 工具 

数据 抽取 工具 把 数据 从 各 种 各 样 的 存储 方式 中 拿 出 来 ,进行 必要 的 转化 .整理 ,再 存 
放 到 数据 仓库 内 。 对 各 种 不 同 数据 存储 方式 的 访问 能 力 是 数据 抽取 工具 的 关键 ,应 能 生 
成 COBOL 程序 `.MVS 作业 控制 语言 (JCL) UNIX 脚本 .和 SQL 语句 等 ,以 访问 不 同 的 
数据 。 数 据 转 换 包 括 : 删除 对 决策 应 用 没有 意义 的 数据 段 ;转换 到 统一 的 数据 名 称 和 定 
义 ; 计 算 统 计 和 衍生 数据 ;将 默认 值 数据 赋 给 默认 值 ; 把 不 同 的 数据 定义 方式 统一 。 

3) 元 数据 

元 数据 是 描述 数据 仓库 内 数据 的 结构 和 建立 方法 的 数据 。 可 将 其 按 用 途 的 不 同 分 为 
两 类 : 技术 元 数据 和 商业 元 数据 。 

技术 元 数据 是 数据 仓库 的 设计 和 管理 人 员 用 于 开发 和 日 常 管理 数据 仓库 使 用 的 数 
据 。 包 括 : 数据 源 信息 ;数据 转换 的 描述 ;数据 仓库 内 对 象 和 数据 结构 的 定义 ;数据 清理 
和 数据 更 新 时 用 的 规则 ; 源 数据 到 目的 数据 的 映射 ;用 户 访问 权限 ;数据 备份 历史 记录 , 数 
据 导 入 历史 记录 、 信 息 发 布 历史 记录 等 。 

商业 元 数据 从 商业 业务 的 角度 描述 了 数据 仓库 中 的 数据 。 包 括 业 务 主题 的 描述 以 及 
所 包含 的 数据 .查询 .报表 。 


人 


元 数据 为 访问 数据 仓库 提供 了 一 个 信息 目录 (information directory) ,这 个 目录 全 面 
描述 了 数据 仓库 中 都 有 什么 数据 ,这些 数据 怎么 得 到 的 和 怎么 访问 这 些 数 据 。 它 是 数据 
仓库 运行 和 维护 的 中 心 ,数据 仓库 服务 器 利用 它 来 存储 和 更 新 数据 ,用 户 通过 它 来 了 解 和 
访问 数据 。 

4) 访问 工具 

访问 工具 为 用 户 访问 数据 仓库 提供 手段 。 有 数据 查询 和 报表 工具 ,应 用 开发 工具 , 管 
理 信息 系统 工具 ,在线 分 析 (OLAP) 工 具 和 数据 挖掘 (DM) 工 具 等 。 

5) 数据 集 市 (Data Marts) 

数据 集 市 是 为 了 特定 的 应 用 目的 或 应 用 范围 而 从 数据 仓库 中 独立 出 来 的 一 部 分 数 
据 , 也 可 称 为 部 门 数 据 或 主题 数据 (subject area) 。 在 数据 仓库 的 实施 过 程 中 ,往往 可 以 
从 一 个 部 门 的 数据 集 市 着 手 ,以 后 再 用 几 个 数据 集 市 组 成 一 个 完整 的 数据 仓库 。 需 要 注 
意 的 就 是 在 实施 不 同 的 数据 集 市 时 ,同一 含义 的 字段 定义 一 定 要 相 容 ,这 样 才能 保证 以 后 
实施 数据 仓库 时 不 会 造成 大 麻烦 。 

6) 数据 仓库 管理 

数据 仓库 管理 包括 安全 和 特权 管理 ,跟踪 数据 的 更 新 数据 质量 检查 、 管 理 和 更 新 元 
数据 .审计 和 报告 数据 仓库 的 使 用 和 状态 .删除 数据 ,复制 .分割 和 分 发 数据 ` 备 份 和 恢复 
以 及 存储 管理 。 

7) 信息 发 布 系统 

信息 发 布 系统 的 作用 是 把 数据 仓库 中 的 数据 或 其 他 相关 的 数据 发 送 给 不 同 的 地 点 或 
用 户 。 基 于 Web 的 信息 发 布 系统 是 对 付 多 用 户 访问 的 最 有 效 方 法 。 

3. 数据 仓库 系统 相关 概念 简介 


1) 数据 仓库 数据 库 

以 企业 数据 采集 为 目的 ,为 了 使 得 跨 表 或 跨 数据 库 ( 有 时 甚至 是 跨 服务 器 ) 的 汇总 输 
出 变 得 快速 .高 效率 ,而 创建 的 一 个 可 供 数据 分 析 查 询 用 的 信息 中 心 储备 库 。 这 就 是 数据 
仓库 数据 库 的 含义 。 来 自 系 统 不 同 部 分 的 信息 被 集成 到 数据 仓库 数据 库 中 ,以 便于 访问 。 

2) 联机 事务 处 理 (OLTP) 

企业 级 关系 数据 库 管 理 软件 旨 在 集中 存储 由 大 公司 或 政府 机 构 中 的 日 常事 务 所 产生 
的 数据 。 由 于 这 些 系 统 基于 计算 机 并 记录 企业 的 业务 事务 ,因此 被 称 为 联机 事务 处 理 
(OLTP) 系统 。 

3) 联机 分 析 处 理 (OLAP) 

联机 分 析 处 理 是 使 分 析 人 员 ,管理 人 员 或 执行 人 员 能 够 从 多 种 角度 对 从 原始 数据 中 
转化 出 来 的 ,能 够 真正 为 用 户 所 理解 的 ,并 真实 反映 企业 维特 性 的 信息 进行 快速 .一致 . 交 
互 地 存 取 ,从 而 获得 对 数据 的 更 深入 了 解 的 一 类 软件 技术 。 

4) 数据 挖掘 (DM) 

数据 挖掘 是 指 从 大 量 原始 数据 中 抽取 模式 的 一 个 处 理 过 程 ,抽取 出 来 的 模式 就 是 所 
谓 的 知识 ,必须 具备 可 信 、 新 颖 ,有效 和 易于 理解 这 四 个 特点 。 
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4.6.4 数据 仓库 的 基本 架构 


数据 仓库 的 目的 是 构建 面向 分 析 的 集成 化 数据 环境 ,为 企业 提供 决策 支持 (Decision 
Support) 。 其 实数 据 仓库 本 身 并 不 “生产 "任何 数据 ,同时 自身 也 不 需要 “消费 ”任何 的 数 
据 , 数 据 来 源 于 外 部 ,并 且 开 放 给 外 部 应 用 ,这 也 是 为 什么 叫 * 仓 库 ”, 而 不 叫 * 工 厂 ” 的 原 
因 。 因 此 数据 仓库 的 基本 架构 主要 包含 的 是 数据 流入 流出 的 过 程 ,可 以 分 为 三 层 一 一 源 
数据 数据 仓库 .数据 应 用 , 详 见 图 4. 4。 


图 nD 辐 。 交 明证 数据 控 所 
(Report) (Ad-hoc) (Data Analysis) (Data Mining) 











点 击 流 日 志 文档 数据 
(Click Stream) (Documents) 











图 4.4 数据 仓库 的 基本 架构 


从 图 4.4 中 可 以 看 出 数据 仓库 的 数据 来 源 于 不 同 的 源 数 据 ,并 提供 多 样 的 数据 应 用 ， 
数据 自 上 而 下 流入 数据 仓库 后 向 上 层 开放 应 用 ,而 数据 仓库 只 是 中 间 集 成 化 数据 管理 的 
三 合生 请 

数据 仓库 从 各 数据 源 获取 数据 及 在 数据 仓库 内 的 数据 转换 和 流动 都 可 以 认为 是 
ETL( 抽 取 Extra、 转 化 Transfer、 装 载 Load) 的 过 程 ,ETL 是 数据 仓库 的 流水 线 , 也 可 以 
认为 是 数据 仓库 的 血液 , 它 维系 着 数据 仓库 中 数据 的 新 陈 代谢 , 而 数据 仓库 日 常 的 管理 和 
维护 工作 的 大 部 分 精力 就 是 保持 ETL 的 正常 和 稳定 。 

下 面 主要 简单 介绍 数据 仓库 架构 中 的 各 个 模块 ,当然 这 里 所 介绍 的 数据 仓库 主要 是 
指 网 站 数据 仓库 。 


4.6.5 数据 仓库 的 数据 存储 


源 数据 通过 ETL 的 日 常任 务 调度 导出 ,并 经 过 转换 后 以 特性 的 形式 存 入 数据 仓库 。 
其 实 这 个 过 程 一 直 有 很 大 的 争议 ,就 是 到 底数 据 仓库 需 不 需要 存储 细节 数据 ,一 方 的 观点 
是 数据 仓库 面向 分 析 , 所 以 只 要 存储 特定 需求 的 多 维 分 析 模 型 ; 另 一 方 的 观点 是 数据 仓库 
先 要 建立 和 维护 细节 数据 ,再 根据 需求 聚合 和 处 理 细节 数据 生成 特定 的 分 析 模 型 。 本 书 
比较 认同 后 面 一 个 观点 : 数据 仓库 并 不 需要 储存 所 有 的 原始 数据 ,但 数据 仓库 需要 储存 
细节 数据 ,并 且 导 入 的 数据 必须 经 过 整理 和 转换 使 其 面向 主题 。 理 由 如 下 : 

(1) 为 什么 不 需要 所 有 原始 数据 ? 

数据 仓库 面向 分 析 处 理 , 但 是 某 些 源 数据 对 于 分 析 而 言 没 有 价值 或 者 其 可 能 产生 的 


ee 


价值 远 低 于 存储 这 些 数据 所 需要 的 数据 仓库 的 实现 和 性 能 上 的 成 本 。 比 如 我 们 知道 用 户 
的 省 份 ,城市 足够 ,至 于 用 户 究 竟 住 哪里 可 能 只 是 物流 商 关 心 的 事 , 或 者 用 户 在 博客 的 评 
论 内 容 可 能 只 是 文本 挖掘 会 有 需要 ,但 将 这 些 宛 长 的 评论 文本 存在 数据 仓库 就 得 不 偿 失 。 

(2) 为 什么 要 保存 细节 数据 ? 

细节 数据 是 必需 的 ,数据 仓库 的 分 析 需 求 会 时 刻 变 化 ,而 有 了 细节 数据 就 可 以 做 到 以 
不 变 应 万 变 , 但 如 果 我 们 只 存储 根据 某 些 需求 搭建 起 来 的 数据 模型 ,那么 显然 对 于 频繁 变 
动 的 需求 会 手足 无 措 。 

(3) 为 什么 要 面向 主题 ? 

面向 主题 是 数据 仓库 的 第 一 特性 ,主要 是 指 合理 地 组 织 数据 以 方面 实现 分 析 。 对 于 
源 数据 而 言 ,其 数据 组 织 形式 是 多 样 的 , 像 点 击 流 的 数据 格式 是 未 经 优化 的 ,前 台数 据 库 
的 数据 是 基于 OLTP 操作 组 织 优化 的 ,这 些 可 能 都 不 适合 分 析 , 而 整理 成 面向 主题 的 组 
织 形式 才 是 真正 有 利于 分 析 的 ,比如 将 点 击 流 日 志 整 理 成 页 面 (Page)、 访 问 (Visit 或 
Session) ,用户 (Visitor) 三 个 主题 ,这 样 可 以 明显 提升 分 析 的 效率 。 

数据 仓库 基于 维护 细节 数据 的 基础 上 在 对 数据 进行 处 理 , 使 其 能 够 真正 地 应 用 于 分 
析 。 主 要 包括 三 个 方面 : 

(1) 数据 的 聚合 。 

这 里 的 聚合 数据 指 的 是 基于 特定 需求 的 简单 聚合 (基于 多 维 数据 的 聚合 体现 在 多 维 
数据 模型 中 ) ,简单 聚合 可 以 是 网 站 的 总 Pageviews、Visits、Unique Visitors 等 汇总 数据 ， 
也 可 以 是 Avg. time on page、Avg. time on site 等 平均 数据 ,这 些 数据 可 以 直接 地 展示 于 
报表 上 。 

(2) 多 维 数据 模型 。 

多 维 数据 模型 提供 了 多 角度 多 层次 的 分 析 应 用 ,比如 基于 时 间 维 、 地 域 维 等 构建 的 销 
售 星 形 模型 .雪花 模型 ,可 以 实现 在 各 时 间 维 度 和 地 域 维度 的 交叉 查询 ,以 及 基于 时 间 维 
和 地 域 维 的 细 分 。 所 以 多 维 数据 模型 的 应 用 一 般 都 是 基于 联机 分 析 处 理 (Online 
Analytical Process, OLAP) 的 ,而 面向 特定 需求 群体 的 数据 集 市 也 会 基于 多 维 数据 模型 
进行 构建 。 

(3) 业务 模型 。 

这 里 的 业务 模型 指 的 是 基于 某 些 数据 分 析 和 决策 支持 而 建立 起 来 的 数据 模型 ,比如 
用 户 评价 模型 .关联 推荐 模型 .RFM 分 析 模 型 等 ,或 者 是 决策 支持 的 线性 规划 模型 .库存 
模型 等 ;同时 ,数据 挖掘 中 前 期 数据 的 处 理 也 可 以 在 这 里 完成 。 


4.6.6 数据 仓库 的 数据 应 用 


以 上 介绍 了 数据 仓库 的 四 大 特性 上 的 价值 体现 ,但 数据 仓库 的 价值 远 不 止 这 些 ,而 且 
其 价值 真正 的 体现 是 在 数据 仓库 的 数据 应 用 上 ,一切 数 据 相关 的 扩展 性 应 用 都 可 以 基于 
数据 仓库 来 实现 。 


1. 报表 展示 
报表 几乎 是 每 个 数据 仓库 的 必 不 可 少 的 一 类 数据 应 用 ,将 聚合 数据 和 多 维 分 析 数 据 
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展示 到 报表 ,提供 了 最 为 简单 和 直观 的 数据 。 

2. 即席 查询 

理论 上 数据 仓库 的 所 有 数据 (包括 细节 数据 .聚合 数据 .多 维 数据 和 分 析 数 据 ) 都 应 该 
开放 即席 查询 ,即席 查询 提供 了 足够 灵活 的 数据 获取 方式 ,用 户 可 以 根据 自己 的 需要 查询 
获取 数据 ,并 提供 导出 到 Excel 等 外 部 文件 的 功能 。 

3. 数据 分 析 

数据 分 析 大 部 分 可 以 基于 构建 的 业务 模型 展开 ,当然 也 可 以 使 用 聚合 的 数据 进行 趋 
势 分 析 .比较 分 析 、 相 关 分 析 等 ,而 多 维 数据 模型 提供 了 多 维 分 析 的 数据 基础 ;同时 从 细节 
数据 中 获取 一 些 样本 数据 进行 特定 的 分 析 也 是 较为 常见 的 一 种 途径 。 

4. 数据 挖掘 

数据 挖掘 用 一 些 高 级 的 算法 可 以 让 数据 展现 出 各 种 令 人 惊讶 的 结果 。 数 据 挖掘 可 以 
基于 数据 仓库 中 已 经 构建 起 来 的 业务 模型 展开 ,但 大 多 数 时 候 数据 挖掘 会 直接 从 细节 数 
据 上 入 手 , 而 数据 仓库 为 挖掘 工具 诸如 SAS、SPSS 等 提供 数据 接口 。 


4.6.7 元 数据 管理 


元 数据 (Meta Date) 其 实 应 该 叫做 解释 性 数据 , 即 数据 的 数据 。 主 要 记录 数据 仓库 中 
模型 的 定义 、 各 层级 间 的 映射 关系 、 监 控 数据 仓库 的 数据 状态 及 ETL 的 任务 运行 状态 。 
一 般 会 通过 元 数据 资料 库 (Metadata Repository) 来 统一 地 存储 和 管理 元 数据 ,其 主要 日 
的 是 使 数据 仓库 的 设计 、 部 署 , 操 作 和 管理 能 达成 协同 和 一 致 。 

最 后 做 个 结论 ,数据 仓库 本 身 既 不 生产 数据 也 不 消费 数据 ,只 是 作为 一 个 中 间 平 台 集 
成 化 地 存储 数据 ;数据 仓库 实现 的 难度 在 于 整体 架构 的 构建 及 ETL 的 设计 ,这 也 是 日 常 
管理 维护 中 的 重头 ;而 数据 仓库 的 真正 价值 体现 在 基于 它 的 数据 应 用 上 ,如 果 没 有 有 效 的 
数据 应 用 ,也 就 失去 了 构建 数据 仓库 的 意义 。 


4.7 大 数据 应 用 案例 之 : 一 场 雾 盐 将 损失 多 少 GDP 


2005 一 2010 年 ,全 球 因 空气 污染 的 死亡 率 上 升 了 4 为 ,其 中 ,中 国 上 升 了 5 为 。2010 
年 ,北京 .上 海 ,广州 \ 西 安 四 城市 因 PM2. 5 污染 造成 7770 人 早死 。 

正当 全 球 领导 人 汇聚 巴黎 讨论 气候 问题 之 时 ,中 国 大 面积 遭遇 严重 雾 儿 污染 ( 见 
图 4.5)。 一 场 切肤之痛 ,再 次 引发 人 们 对 环境 问题 的 关注 ,也 生发 出 更 多 质问 和 治理 
思考 。 

在 无 法 逃避 的 情况 下 ,人 们 只 能 自嘲 或 他 哮 , 齐 齐 做 出 “等 风 来 ”的 祈祷 状 。 但 必须 指 
出 的 是 ,空气 污染 问题 比 你 想象 的 更 为 严重 。 联合国 环境 规划 署 早 已 将 空气 污染 列 为 “全 
球 最 严重 的 环境 健康 风险 ”。 

其 中 ,直径 在 2. 5pm 及 以 内 的 细微 颗粒 物 (PM2. 5) 产 生 于 化 石 燃 料 和 生物 质 的 不 完 
全 燃烧 ,是 人 们 最 担心 的 空气 污染 问题 之 一 。PM2. 5 的 直径 是 人 的 头发 丝 厚度 的 百 分 之 
一 , 它 可 以 深入 渗透 到 肺 部 和 血液 中 ,并 且 不 论 在 何 种 浓度 都 是 危险 的 。 国 际 癌症 研究 机 
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4.5 中 国 大 面积 遭遇 严重 雾 才 污染 


构 (IARC) 在 2013 年 确认 颗粒 物 是 人 类 致癌 物 。 
2001 一 2006 年 全 球 PM2. 5 浓度 的 统计 分 析 图 如 图 4.6 所 示 。 


2001 一 2006 年 全 球 年 均 PM2.5 浓 度 
= pk 





= 
0 5 10 而 20 50 80 heim 
数据 来 源 :NASA 


图 4.6 全 球 PM2.5 浓度 


1. 问题 的 严重 性 

那么 ,这 位 "杀手 ?到底 有 多 厉害 呢 ? 

世界 卫生 组 织 在 给 当地 机 关 的 留言 中 披露 ,全 世界 只 有 12% 的 城市 达到 了 世界 卫生 
组 织 空气 污染 指导 标准 ,许多 城市 市 中 心 的 污染 达到 了 建议 水 平 的 10 倍 以 上 。 

而 据 世 界 卫生 组 织 给 各 国 财 政 部 长 的 留言 信 , 从 全 球 来 看 ,能 源 消 费 最 大 的 负 外 部 性 
就 是 空气 污染 ,每 年 造成 超过 700 万 人 死亡 。 这 是 之 前 预 估 的 两 倍 还 多 。 其 中 ,超过 400 
万 人 死 于 室内 空气 污染 ,超过 350 万 人 死 于 室外 空气 污染 。 室 外 空气 污染 致死 人 数 统计 
分 析 见 图 4.7 所 示 。 


ge 
140: 
























大 数据 技术 及 应 用 教程 、 
室 息 致死 
2012 年 因 室内 及 周边 空气 污染 共同 影响 造成 的 关键 词 : 
死亡 人 数 , 按 区 域 分 类 (' 000) LMI= 中 低 收入 
美国 HI = 高 收入 
半 @ LMI 131 欧洲 Hl 
HI96 者 西 太平 洋 HI 68 


®@ 





欧洲 LMI 
287 


2012 年 死亡 人 数 , 按 疾病 分 类 
急性 下 呼吸 道 疾 病 国 辐 596 000 
肺癌 国 443 100 
慢性 阻塞 性 肺 疾病 EEEEEE 1 187 900 
[2796900 


中 风 
缺 血 性 心脏 病 ES52970T 


数据 来 源 : 世 界 卫生 组 织 2012 
4.7 室外 空气 污染 致死 人 数 


而 不 幸 的 是 ,这 种 死亡 威胁 仍 在 加 强 。 联 合 国 数据 称 , 从 2005 一 2010 年 ,全 球 死亡 率 
上 升 了 4%, 其 中 ,中 国 上 升 了 5%, 印 度 上 升 了 12%。 

绿色 和 平 组 织 和 北京 大 学 公共 卫生 学 院 于 2012 年 底 共 同 发 布 的 (危险 的 呼吸 一 一 
PM2. 5 的 健康 危害 和 经 济 损失 评估 研究 ) 指 出 ,空气 污染 致死 已 被 研究 证 实 ,2010 年 , 北 
京 . 上 海 .广州 西安 四 城市 因 PM2. 5 污染 造成 7770 人 早死 。 

不 仅 如 此 ,联合 国 环境 规划 署 年 鉴 2014》 显 示 , 在 大 多 数 室外 空气 污染 受 监 测 的 城 
市 ,其 空气 质量 都 达 不 到 世界 卫生 组 织 指南 中 关于 可 接受 污染 水 平 的 标准 。 在 这 些 城市 
生活 的 居民 拥有 更 高 的 患 上 中 风 、 心 脏 病 , 肺 癌 , 慢 性 和 急性 呼吸 道 疾 病 ( 包 括 哮喘 ) 及 其 
他 健康 疾病 的 风险 。 


2. 经 济 损失 


空气 污染 不 仅 侵蚀 着 人 们 的 生命 安全 ,也 消耗 着 经 济 增长 前 景 。 

据 经 合 组 织 COECD) 研 究 ,仅仅 2010 年 ,空气 污染 给 中 国 和 印度 造成 的 经 济 损失 ,就 
分 别 高 达 1.4 万 亿美 元 和 0. 5 万 亿美 元 。 在 欧洲 ,由 于 暴露 于 道路 交通 造成 的 空气 污染 
中 而 导致 的 损失 为 每 年 1370 亿美 元 ,而 2009 年 ,由 于 10 000 个 污染 设备 产生 的 空气 污 
染 所 造成 的 损失 一 一 人 口 死亡 ,疾病 和 作物 损毁 一 一 约 为 1400 一 2300 亿美 元 。 

世界 卫生 组 织 在 给 各 国 财政 部 长 的 留言 信 中 则 表示 ,2015 年 仅 能 源 消费 引起 的 室外 
空气 污染 一 项 ,其 造成 的 非 补贴 健康 影响 价值 就 达到 了 约 27 000 亿美 元 ,超过 了 给 能 源 
部 门 支持 总 额 的 一 半 。 

联合 国 环境 规划 署 也 预 估 ,到 2030 年 ,全 球 由 于 地 面 臭氧 污染 造成 的 大 豆 玉米、 小 
麦 等 作物 的 损失 可 达 每 年 170 一 350 亿美 元 。 

据 联合 国 环境 规划 署 数 据 , 空 气 污染 对 世界 最 先进 经 济 体 ,以 及 印度 和 中 国 造 成 的 损 
失 的 估 值 已 达到 每 年 3. 5 万 亿美 元 。 这 些 损失 主要 是 人 口 死亡 和 疾病 问题 。 据 估计 ， 
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2010 年 ,室外 空气 污染 在 经 合 组 织 国 家 (OECD) 造 成 的 人 口 死 亡 及 疾病 问题 的 经 济 影响 
为 1.7 万 亿美 元 。 


各 


收益 


正 因为 空气 污染 问题 很 严重 ,更 激发 了 全 球 为 之 寻求 解决 方案 的 努力 ,而 且 , 改 善 空 
气质 量 带 来 的 巨大 经 济 效益 潜力 也 显而易见 。 

在 美国 ,由 于 1990 年 (清洁 空气 法 案 修正 案 ) 的 实施 而 减少 的 PM2.5 及 地 面 臭氧 , 它 
们 所 带 来 的 直接 经 济 效益 据 估计 是 推行 这 项 政策 所 使 用 经 费 的 90 倍 。 大 约 85% 的 经 济 
效益 归 因 于 户外 环境 中 的 PM2. 5 含量 降低 ,从 而 使 得 过 早死 亡 数量 减少 , 仅 在 2020 年 一 
年 就 可 以 避免 23 万 个 过 早死 亡 病例 。 

据 世界 卫生 组 织 估计 ,一 旦 实施 了 国家 性 能 源 适 宜 定 价 , 室 外 空气 污染 造成 的 死亡 人 
数 将 减少 三 分 之 一 ,并 能 降低 超过 20% 的 温室 气体 排放 。 

而 且 , 如 果 取 消 能 源 补 贴 , 转 而 改 为 设置 与 国家 利益 相 一 致 的 税收 项 目 , 那 么 ,就 能 提 
升 大 约 3% 的 国内 生产 总 值 ,相当 于 每 年 新 增 3 万 亿美 元 。 世 界 卫 生 组 织 在 给 各 国 财政 
部 长 的 留言 中 披露 这 一 数据 。 

实际 上 ,近年 来 空气 污染 稍 有 减缓 ,这 部 分 归 因 于 更 严格 的 排放 控制 。 世 界 银行 的 研 
究 即 发 现 ,在 撒哈拉 沙漠 以 南 的 非洲 , 低 硫 燃料 (50ppm) 及 清洁 型 交通 工具 (包括 摩托 车 ) 
的 应 用 ,预计 将 在 十 年 的 时 间 内 产生 430 亿美 元 的 健康 收益 。 

( 注 : 上 述 数据 均 据 (联合 国 环境 规划 署 年 鉴 2014》 世 界 卫生 组 织 网 站 ) 





习题 与 思考 是 
一 、 选 择 题 
1. 大 数据 应 用 需 依托 的 新 技术 有 ( ”)。 
A. 大 规模 存储 与 计算 B. 数据 分 析 处 理 
C. 智能 化 D. 三 个 选项 都 是 
2. 在 数据 生命 周期 管理 实践 中 ,( ”) 是 执行 方法 。 
A. 数据 存储 和 备份 规范 B. 数据 管理 和 维护 
C. 数据 价值 发 觉 和 利用 D. 数据 应 用 开发 和 管理 
3. 下 列 关于 计算 机 存储 容量 单位 的 说 法 中 ,错误 的 是 ( 5 
A. 1KB<1MB<1GB B. 基本 单位 是 字 节 (Byte) 
C. 一 个 汉字 需要 一 个 字 节 的 存储 空间 ”D. 一 个 字 节 能 够 容纳 一 个 英文 字符 
4. 数据 仓库 的 最 终 目的 是 ( ”)。 
A. 收集 业务 需求 B. 建立 数据 仓库 逻辑 模型 
C. 开发 数据 仓库 的 应 用 分 析 D. 为 用 户 和 业务 部 门 提供 决策 支持 


. 下 列 说 法 正确 的 是 (。”)。 


A. 有 价值 的 数据 是 附属 于 企业 经 营 核心 业务 的 一 部 分 数据 
B. 数据 挖掘 它 的 主要 价值 后 就 没有 必要 再 进行 分 析 了 
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C. 所 有 数据 都 是 有 价值 的 
D. 在 大 数据 时 代 , 收 集 ,存储 和 分 析 数 据 非常 简单 
6. 关于 数据 创新 包含 ( 。”)。( 多 选 题 ) 


A. 数据 的 再 利用 B. 重组 数据 
C. 可 扩展 数据 D. 数据 的 折旧 值 
E. 数据 废气 F. 开放 数据 


7. 相 比 依赖 于 小 数据 和 精确 性 的 时 代 , 大 数据 因为 更 强调 数据 的 (  ) ,帮助 我 们 
进一步 接近 事实 的 真相 。 
A. 安全 性 B. 完整 性 C. 混杂 性 D. 完整 性 和 混杂 性 
二 、 问 答题 


. 传统 数据 存储 有 哪 几 种 存储 的 模式 ?” 请 简要 说 明 。 

. 什么 是 分 布 式 存储 系统 ? 什么 是 云 存储 ? 

. 什么 是 NoSQL 非 结 构 化 数据 库 ? 什么 是 大 规模 并 行 分 析 数 据 库 ? 
. 简 述 数据 仓库 原理 及 构成 。 

. 简要 说 明 数 据 仓库 的 基本 架构 。 


a 
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计算 模式 的 出 现 有 力 推动 了 大 数据 技术 和 应 用 的 发 展 ,使 其 成 为 目前 大 数据 处 理 最 
为 成 功 ,最 广 为 接 受 使 用 的 主流 大 数据 计算 模式 。 然 而 ,现实 世界 中 的 大 数据 处 理 问 题 复 
杂 多 样 ,难以 有 一 种 单一 的 计算 模式 涵盖 所 有 不 同 的 大 数据 计算 需求 。 

研究 和 实际 应 用 中 发 现 ,由 于 MapReduce 主要 适合 于 进行 大 数据 线 下 批 处 理 , 在 面 
向 低 延 迟 和 具有 复杂 数据 关系 和 复杂 计算 的 大 数据 问题 时 有 很 大 的 不 适应 性 。 因 此 , 近 
几 年 来 学 术 界 和 业界 在 不 断 研究 并 推出 多 种 不 同 的 大 数据 计算 模式 。 

所 谓 大 数据 计算 模式 , 即 根据 大 数据 的 不 同 数据 特征 和 计算 特征 ,从 多 样 性 的 大 数据 
计算 问题 和 需求 中 提炼 并 建立 的 各 种 高 层 抽象 (Abstraction) 或 模型 (Model) 。 

传统 的 并 行 计 算 方法 主要 从 体系 结构 和 编程 语言 的 层面 定义 了 一 些 较为 底层 的 并 行 
计算 抽象 和 模型 ,但 由 于 大 数据 处 理 问 题 具 有 很 多 高 层 的 数据 特征 和 计算 特征 ,因此 大 数 
据 处 理 需 要 更 多 地 结合 这 些 高 层 特征 考虑 更 为 高 层 的 计算 模式 。 


5.1 数据 计算 


面向 大 数据 处 理 的 数据 查询 统计、 分析 ,挖掘 等 需求 , 促 生 了 大 数据 计算 的 不 同 计算 
模式 ,整体 上 我 们 把 大 数据 计算 分 为 离线 批 处 理 计算 、 实 时 交互 计算 和 流 计算 三 种 。 


5.1.1 离线 批 处 理 


随 着 云 计算 技术 到 广泛 的 应 用 的 发 展 ,基于 开源 的 Hadoop 分 布 式 存储 系统 和 
MapReduce 数据 处 理 模式 的 分 析 系 统 也 得 到 了 广泛 的 应 用 。 

Hadoop 通过 数据 分 块 及 自 恢复 机 制 ,能 支持 PB 级 的 分 布 式 的 数据 存储 ,以 及 基于 
MapReduce 分 布 式 处 理 模 式 对 这 些 数据 进行 分 析 和 处 理 。MapReduce 编程 模型 可 以 很 
容易 地 将 多 个 通用 批 数据 处 理 任务 和 操作 在 大 规模 集群 上 并 行 化 ,而 且 有 自动 化 的 故障 
转移 功能 。MapReduce 编程 模型 在 Hadoop 这 样 的 开源 软件 带动 下 被 广泛 采用 ,应 用 到 
Web 搜索 .欺诈 检测 等 各 种 各 样 的 实际 应 用 中 。 

Hadoop 是 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 ,而 且 是 以 一 种 可 靠 .高 
效 ,可 伸缩 的 方式 进行 处 理 ,依靠 横 向 扩展 ,通过 不 断 增加 廉价 的 商用 服务 器 来 提高 计算 
和 存储 能 力 。 用 户 可 以 轻松 地 在 上 面 开发 和 运行 处 理 海量 数据 的 应 用 程序 。 以 Hadoop 
平台 为 代表 的 大 数据 处 理 平台 技术 包括 MapReduce、HDFS、 HBase、 Hive、Zookeeper、 
Avro 和 Pig 等 ,已 经 形成 了 一 个 Hadoop 生态 圈 , 如 图 5. 1 所 示 。 

MapReduce 编程 模型 是 Hadoop 的 心脏 ,用 于 大 规模 数据 集 的 并 行 运算 。 正 是 这 种 
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图 5.1 Hadoop 生态 圈 


编程 模式 ,实现 了 跨越 一 个 Hadoop 集群 中 数 百 或 数 千 台 服 务 器 的 大 规模 扩展 性 。 

分 布 式 文件 系统 HDFS 提供 基于 Hadoop 处 理 平台 的 海量 数据 存储 ,其 中 的 
NameNode 提供 元 数据 服务 ,DataNode 用 于 存储 文件 系统 的 文件 块 。 

HBase 是 建立 在 HDFS 之 上 ,用 于 提供 高 可 靠 性 高 性 能 、 列 存储 .可 伸缩 .实时 读 写 
的 数据 库 系统 ,可 以 存储 非 结构 化 和 半 结 构 化 的 松散 数据 。 

Hive 是 基于 Hadoop 的 大 型 数据 仓库 ,可 以 用 来 进行 数据 的 提取 、 转 化 和 加 载 
(ETL) ,存储 、 查 询 和 分 析 存储 在 Hadoop 中 的 大 规模 数据 。 

Pig 是 基于 Hadoop 的 大 规模 数据 分 析 平 台 , 可 以 把 类 SQL 的 数据 分 析 请 求 转换 为 
一 系列 经 过 优化 处 理 的 MapReduce 运算 ,为 复杂 的 海量 数据 并 行 计算 提供 了 一 个 简单 的 
操作 和 编程 接口 。 

Zookeeper 是 高 效 , 可 靠 的 协同 工作 系统 ,用 于 协调 分 布 式 应 用 上 的 各 种 服务 ,利用 
Zookeeper 可 以 构建 一 个 有 效 防止 单 点 失效 及 处 理 负 载 均 衡 的 协调 服务 。 

Avro 作为 二 进 制 的 高 性 能 的 通信 中 间 件 ,提供 了 Hadoop 平台 间 的 数据 序列 化 功能 
和 RPC 服务 。 

但 Hadoop 平台 主要 是 面向 离线 批 处 理应 用 的 ,典型 的 是 通过 调度 批量 任务 操作 静 
态 数据 ,计算 过 程 相 对 缓慢 ,有 的 查询 可 能 会 花 几 小 时 甚至 更 长 时 间 才 能 产生 结果 ,对 于 
实时 性 要 求 更 高 的 应 用 和 服务 则 显得 力不从心 。 

MapReduce 是 一 种 很 好 的 集群 并 行 编程 模型 ,能 够 满足 大 部 分 应 用 的 需求 。 虽 然 
MapReduce 是 分 布 式 /并 行 计算 方面 一 个 很 好 的 抽象 ,但 它 并 不 一 定 适合 解决 计算 领域 
的 任何 问题 。 例 如 ,对 于 那些 需要 实时 获取 计算 结果 的 应 用 , 像 基于 流量 的 点 击 付费 模式 
的 广告 投放 ,基于 实时 用 户 行为 数据 分 析 的 社交 推荐 ,基于 网 页 检索 和 点 击 流量 的 反 作 次 
统计 等 等 。 对 于 这 些 实时 应 用 ,MapReduce 并 不 能 提供 高 效 处 理 , 因 为 处 理 这 些 应 用 逻 
辑 需 要 执行 多 轮作 业 ,或 者 需要 将 输入 数据 的 粒度 切 分 到 很 小 。 
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5.1.2 实时 交互 计算 


当今 的 实时 计算 一 般 都 需要 针对 海量 数据 进行 ,除了 要 满足 非 实时 计算 的 一 些 需求 
(如 计算 结果 准确 ) 以 外 ,实时 计算 最 重要 的 一 个 需求 是 能 够 实时 响应 计算 结果 ,一般 要 求 
为 秒 级 。 实 时 计算 一 般 可 以 分 为 以 下 两 种 应 用 场景 : 

(1) 数据 量 巨 大 且 不 能 提前 计算 出 结果 的 ,但 要 求 对 用 户 的 响应 时 间 是 实时 的 。 

主要 用 于 特定 场合 下 的 数据 分 析 处 理 . 当 数据 量 庞大 ,同时 发 现 无 法 穷 举 所 有 可 能 条 
件 的 查询 组 合 , 或 者 大 量 穷 举 出 来 的 条 件 组 合 无 用 的 时 候 , 实 时 计算 就 可 以 发 挥 作 用 ,将 
计算 过 程 推 迟到 查询 阶段 进行 ,但 需要 为 用 户 提供 实时 响应 。 这 种 情形 下 ,也 可 以 将 一 部 
分 数据 提前 进行 处 理 , 再 结合 实时 计算 结果 ,以 提高 处 理 效率 。 

(2) 数据 源 是 实时 的 和 不 间断 的 ,要 求 对 用 户 的 响应 时 间 也 是 实时 的 。 

数据 源 实时 不 间断 的 也 称 为 流 式 数据 。 所 谓 流 式 数据 ,是 指 将 数据 看 作 是 数据 流 的 
形式 来 处 理 。 数 据 流 是 在 时 间 分 布 和 数量 上 无 限 的 一 系列 数据 记录 的 集合 体 ;数据 记录 
是 数据 流 的 最 小 组 成 单元 。 例 如 ,在 物 联网 领域 传感器 产生 的 数据 可 能 是 源源 不 断 的 , 实 
时 的 数据 计算 和 分 析 可 以 动态 实时 地 对 数据 进行 分 析 统计 ,对 于 系统 的 状态 监控 ,调度 管 
理 具 有 重要 的 实际 意义 。 


5.1.3 海量 数据 实时 计算 


海量 数据 的 实时 计算 过 程 可 以 被 划分 为 以 下 三 个 阶段 : 数据 的 产生 与 收集 阶段 、 传 
输 与 分 析 处 理 阶 段 、. 存 储 和 对 外 提供 服务 阶段 ,如 图 5. 2 所 示 。 


数据 实时 采集 数据 实时 计算 实时 查询 服务 





图 5.2 实时 计算 过 程 


1. 数据 实时 采集 

数据 实时 采集 在 功能 上 需要 保证 可 以 完整 地 收集 到 所 有 数据 ,为 实时 应 用 提供 实时 
数据 ;响应 时 间 上 要 保证 实时 性 、 低 延迟 ;配置 简单 ,部 署 容易 ;系统 稳定 可 靠 等 。 目 前 , 互 
联网 企业 的 海量 数据 采集 工具 包括 Facebook 开源 的 Scribe、LinkedIn 开源 的 Kafka、 
Cloudera 开源 的 Flume、 淘 宝 开源 的 TimeTunnel、Hadoop 的 Chukwa 等 , 均 可 以 满足 每 
秒 数 百 MB 的 日 志 数 据 采 集 和 传输 需求 。 

2. 数据 实时 计算 

传统 的 数据 操作 ,首先 将 数据 采集 并 存储 在 数据 库 管理 系统 (DBMS) 中 ,然后 通过 
query 和 DBMS 进行 交互 ,得 到 用 户 想 要 的 答案 。 整 个 过 程 中 ,用 户 是 主动 的 ,而 DBMS 
系统 是 被 动 的 。 但 是 ,对 于 现在 大 量 存在 的 实时 数据 ,这 类 数据 实时 性 强 .数据 量 大 数据 
格式 多 种 多 样 ,传统 的 关系 型 数据 库 架 构 并 不 合适 。 新 型 的 实时 计算 架构 一 般 都 是 采用 
海量 并 行 处 理 MPP 的 分 布 式 架构 ,数据 的 存储 及 处 理会 分 配 到 大 规模 的 结 点 上 进行 ,以 
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满足 实时 性 要 求 ,在 数据 的 存储 上 , 则 采用 大 规模 分 布 式 文件 系统 ,比如 , Hadoop 的 
HDFS 文件 系统 ,或 是 新 型 的 NoSQL 分 布 式 数据 库 。 

3. 实时 查询 服务 

实时 查询 服务 的 实现 可 以 分 为 三 种 方式 。 

(1) 全 内 存 : 直接 提供 数据 读 取 服 务 ,定期 dump 到 磁盘 或 数据 库 进 行 持久 化 。 

(2) 半 内 存 : 使 用 Redis、Memcache、MongoDB、BerkeleyDB 等 数据 库 提供 数据 实时 
查询 服务 ,由 这 些 系 统 进行 持久 化 操作 。 

(3) 全 磁盘 : 使 用 HBase 等 以 分 布 式 文件 系统 (HDFS) 为 基础 的 NoSQL 数据 库 , 对 
于 Key-Value 引擎 ,关键 是 设计 好 Key 的 分 布 。 

实时 和 交互 式 计算 技术 中 ,Google 的 Dremel 系统 表现 最 为 突出 。Dremel 是 Google 
的 “交互 式 ” 数 据 分 析 系 统 ,可 以 组 建成 规模 上 千 的 集群 ,处 理 PB 级 别 的 数据 。 作 为 
MapReduce 的 发 起 人 , Google 开发 了 Dremel 系统 将 处 理 时 间 缩 短 到 秒 级 , 作为 
MapReduce 的 有 力 补充 。 

Dremel 作为 Google BigQuery 的 report 引擎 ,获得 了 很 大 的 成 功 。 与 MapReduce 
一 样 ,Dremel 也 需要 和 数据 运行 在 一 起 ,将 计算 移动 到 数据 上 面 。 它 需要 GFS 这 样 的 文 
件 系统 作为 存储 层 。Dremel 支持 一 个 嵌 套 (nested) 的 数据 模型 ,类 似 于 JSON。 而 传统 
的 关系 模型 由 于 不 可 避免 地 有 大 量 的 Join 操作 ,在 处 理 如 此 大 规模 的 数据 的 时 候 ,往往 
是 有 心 无 力 。Dremel 同时 还 使 用 列 式 存储 ,分 析 的 时 候 , 可 以 只 扫描 需要 的 那 部 分 数据 ， 
以 减少 CPU 和 磁盘 的 访问 量 。 同 时 列 式 存储 是 压缩 友好 的 ,使 用 压缩 ,可 以 减少 存储 
量 ,发 挥 最 大 的 效能 。 


5.1.4 流 计算 


在 很 多 实时 应 用 场景 中 ,比如 实时 交易 系统 、 实 时 诈骗 分 析 、 实 时 广告 推送 、 实 时 监 
控 、 社 交 网 络 实时 分 析 等 ,数据 量 大 ,实时 性 要 求 高 ,而 且 数据 源 是 实时 不 间断 的 。 新 到 的 
数据 必须 马上 处 理 完 , 不 然后 续 的 数据 就 会 堆积 起 来 ,永远 也 处 理 不 完 。 反 应 时 间 经 常 要 
求 在 秒 级 以 下 ,甚至 是 毫秒 级 ,这 就 需要 一 个 高 度 可 扩展 的 流 式 计算 解决 方案 。 

流 计 算 就 是 针对 实时 连续 的 数据 类 型 而 准备 的 。 在 流 数据 不 断 变化 的 运动 过 程 中 实 
时 地 进行 分 析 , 捕 捉 到 可 能 对 用 户 有 用 的 信息 ,并 把 结果 发 送出 去 。 在 整个 过 程 中 ,数据 
分 析 处 理 系 统 是 主动 的 ,用 户 处 于 被 动 接收 的 状态 ,如 图 5. 3 所 示 。 








图 5.3 流 计算 过 程 
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传统 的 流 式 计算 系统 ,一 般 是 基于 事件 机 制 ,所 处 理 的 数据 量 也 不 大 。 新 型 的 流 处 理 
技术 ,如 Yahoo 的 S4 主要 解决 的 是 高 数据 率 和 大 数据 量 的 流 式 处 理 。 

S4 是 一 个 通用 的 、 分 布 式 的 、 可 扩展 的 、 部 分 容错 的 、 可 插 拔 的 平台 。 开 发 者 可 以 很 
容易 地 在 其 上 开发 面向 无 界 不 间断 流 数 据 处 理 的 应 用 。 


5.2 聚 类 算法 


聚 类 分 析 是 一 种 重要 的 人 类 行为 , 早 在 孩提 时 代 , 一 个 人 就 通过 不 断 改进 下 意识 中 的 
聚 类 模式 来 学 会 如 何 区 分 猫 狗 ,动物 植物 。 目 前 在 许多 领域 都 得 到 了 广泛 的 研究 和 成 功 
的 应 用 ,如 用 于 模式 识别 .数据 分 析 、` 图 像 处 理 、 市 场 研究 .客户 分 割 .Web 文档 分 类 等 。 

肾 类 就 是 按照 某 个 特定 标准 (如 距离 准则 ) 把 一 个 数据 集 分 割 成 不 同 的 类 或 簇 ,使 得 
同一 个 复 内 的 数据 对 象 的 相似 性 尽 可 能 大 ,同时 不 在 同一 个 篮 中 的 数据 对 象 的 差异 性 也 
尽 可 能 地 大 。 即 聚 类 后 同一 类 的 数据 尽 可 能 聚集 到 一 起 ,不 同 数 据 尽量 分 离 。 

聚 类 技术 正在 莲 勃 发 展 ,对 此 有 贡献 的 研究 领域 包括 数据 挖掘 .统计 学 .机 器 学 习 、 空 
间 数 据 库 技术 、 生 物 学 以 及 市 场 营销 等 。 各 种 聚 类 方法 也 被 不 断 提出 和 改进 ,而 不 同 的 方 
法 适合 于 不 同类 型 的 数据 ,因此 对 各 种 聚 类 方法 、 聚 类 效果 的 比较 成 为 值得 研究 的 课题 。 


5.2.1 聚 类 算法 的 分 类 


目前 ,有 大 量 的 聚 类 算法 。 而 对 于 具体 应 用 , 聚 类 算法 的 选择 取决 于 数据 的 类 型 、 聚 
类 的 目的 。 如 果 聚 类 分 析 被 用 作 描 述 或 探查 的 工具 ,可 以 对 同样 的 数据 尝试 多 种 算法 ,以 
发 现 数据 可 能 揭示 的 结果 。 

主要 的 聚 类 算法 可 以 划分 为 如 下 几 类 : 划分 方法 .层次 方法 .基于 密度 的 方法 .基于 
网 格 的 方法 以 及 基于 模型 的 方法 。 

每 一 类 中 都 存在 着 得 到 广泛 应 用 的 算法 ,例如 ,划分 方法 中 的 Amean 聚 类 算法 、 层 
次 方法 中 的 凝聚 型 层次 聚 类 算法 .基于 模型 方法 中 的 神经 网 络 聚 类 算法 等 。 

目前 , 聚 类 问题 的 研究 不 仅仅 局 限于 上 述 的 硬 聚 类 , 即 每 一 个 数据 只 能 被 归 为 一 类 ， 
模糊 聚 类 也 是 聚 类 分 析 中 研究 较为 广泛 的 一 个 分 支 。 模 糊 聚 类 通过 隶属 函数 来 确定 每 个 
数据 隶属 于 各 个 簇 的 程度 ,而 不 是 将 一 个 数据 对 象 硬性 归 类 到 某 一 簇 中 。 目 前 已 有 很 多 
关于 模糊 聚 类 的 算法 被 提出 ,如 著名 的 FCM 算法 等 。 


5.2.2 数据 分 类 与 聚 类 

聚 类 的 算法 有 很 多 ,现在 已 知 的 算法 主要 有 四 种 类 型 : 划分 聚 类 、 层 次 聚 类 、 基 于 密 
度 的 聚 类 .基于 表格 的 聚 类 。 

1. 划分 聚 类 


对 于 给 定 的 数据 集 , 划 分 聚 类 需要 知道 要 划分 簇 的 数目 (kn,n 是 数据 集中 项 的 数 
目 )。 划 分 聚 类 将 数据 分 为 k 组 ,每 组 至 少 有 一 项 。 大 多 数 划 分 聚 类 都 是 基于 距离 的 。 一 
般 情况 下 给 出 了 到 类 数目 ,首先 会 产生 一 个 初始 的 划分 ,然后 用 迭代 的 方法 通过 更 改 数 
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据 项 所 属 的 簇 来 提高 划分 的 质量 。 一 个 好 的 划分 的 标准 是 同一 个 簇 内 的 数据 项 彼此 相 
似 ,相反 地 ,不 同 簇 的 项 有 较 大 的 区 别 。 

实现 全 局 最 优 划分 往往 很 难 在 复杂 度 忍 受 的 范围 内 做 到 。 然 而 ,大 多 数 应 用 都 选取 
了 一 些 启发 式 方法 。 比 如 像 选取 贪心 策略 的 k-means 和 k-medoids 算法 ,都 极 大 地 提高 
了 划分 质量 ,并 达到 了 一 个 局 部 最 优 解 。 这 些 启发 式 聚 类 算法 在 中 小 型 数据 集中 挖掘 类 
似 球形 簇 表 现 非常 好 。 

2. 层次 聚 类 

层次 聚 类 就 是 通过 对 数据 集 按 照 某 种 方法 进行 层次 分 解 , 直 到 满足 某 种 条 件 为 止 。 
层次 聚 类 根据 划分 的 方法 分 为 凝聚 和 分 割 两 种 。 凝 聚 的 方法 也 叫做 自 底 向 上 方法 。 它 每 
次 迭代 将 最 相近 两 个 项 (或 者 组 ) 合 并 形成 一 个 新 的 组 ,直至 最 终 形成 一 个 组 或 者 达到 其 
他 停止 的 条 件 。 

分 割 的 方法 也 叫 自 顶 向 下 ,与 凝聚 的 方法 相反 。 开 始 的 时 候 讲 所 有 数据 看 成 一 个 组 ， 
每 一 次 迭代 一 个 簇 就 被 划分 成 两 个 小 一 点 儿 的 簇 。 直 到 最 终 每 个 项 都 是 一 个 簇 或 者 达到 
了 某 个 停止 条 件 。 层 次 聚 类 可 以 是 基于 距离 .基于 密度 .基于 连接 的 。 层 次 聚 类 有 一 个 缺 
点 :一旦 一 个 凝聚 或 分 割 形成 了 ,这 个 操作 就 永远 不 能 再 更 改 了 。 这 样 的 好 处 就 是 计算 
复杂 度 相对 较 低 。 

3. 基于 密度 的 聚 类 

很 多 聚 类 算法 都 是 根据 距离 计算 的 。 这 样 很 容易 发 现 球形 的 簇 ,很 难 发 现 其 他 形状 
的 徐 。 基 于 密度 的 算法 认为 ,在 整个 样本 空间 点 中 ,各 目标 类 簇 是 由 一 群 的 稠密 样本 点 组 
成 的 ,而 这 些 稠密 样本 点 被 低 密度 区 域 ( 品 声 ) 分 割 ,而 算法 的 目的 就 是 要 过 滤 低 密度 区 
域 ,发 现 稠密 样本 点 。 这 类 算法 往往 重视 数据 项 的 密集 程度 ,因此 这 些 算法 都 是 基于 连接 
的 。 虽 然 是 基于 连接 的 ,但 是 也 强调 了 连接 过 程 中 数据 项 周围 的 密度 。 这 样 就 能 发 现 各 
种 任意 形状 的 聚 类 簇 。 


4. 基于 网 格 的 聚 类 


这 类 算法 将 数据 项 的 空间 划分 成 有 限 数目 的 网 格 。 所 有 的 聚 类 操作 都 是 在 网 格 上 进 
行 的 。 这 样 最 大 的 好 处 是 计算 速度 相当 快 。 因 为 计算 过 程 跟 数 据 项 的 数目 没有 关系 ,只 
与 每 一 维 网 格 的 数目 和 维 数 有 关系 。 对 于 大 数据 的 数据 挖掘 问题 ,网 格 的 方法 效率 往往 
会 很 不 错 。 然 而 网 格 只 是 一 种 思想 ,这 种 思想 往往 要 和 其 他 的 算法 相 结合 才能 解决 好 实 
际 问题 ,比如 聚 类 。 


5.3 数据 集成 


近 几 十 年 来 ,科学 技术 的 迅猛 发 展 和 信息 化 的 推进 ,使 得 人 类 社会 所 积累 的 数据 量 已 
经 超过 了 过 去 5000 年 的 总 和 ,数据 的 采集 存储、 处 理 和 传播 的 数量 也 与 日 俱 增 。 企 业 实 
现 数据 共享 ,可 以 使 更 多 的 人 更 充分 地 使 用 已 有 的 数据 资源 ,减少 资料 收集 ,数据 采集 等 
重复 劳动 和 相应 费用 。 

但 是 ,在 实施 数据 共享 的 过 程 当中 ,由 于 不 同 用 户 提供 的 数据 可 能 来 自 不 同 的 途径 ， 
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其 数据 内 容 数据 格式 和 数据 质量 千差万别 ,有 时 甚至 会 遇 到 数据 格式 不 能 转换 或 数据 转 
换 格式 后 丢失 信息 等 棘手 问题 ,严重 阻碍 了 数据 在 各 部 门 和 各 软件 系统 中 的 流动 与 共享 。 
因此 ,如 何 对 数据 进行 有 效 的 集成 管理 已 成 为 增强 企业 商业 竞争 力 的 必然 选择 。 

由 于 现代 企业 的 飞速 发 展 和 企业 逐渐 从 一 个 孤立 结 点 发 展 成 为 不 断 与 网 络 交换 信息 
和 进行 商务 事务 的 实体 ,企业 数据 交换 也 从 企业 内 部 走向 了 企业 之 间 ; 同 时 ,数据 的 不 确 
定性 和 频繁 变动 ,以 及 这 些 集成 系统 在 实现 技术 和 物理 数据 上 的 紧 耦 合 关 系 , 导 致 一 旦 应 
用 发 生变 化 或 物理 数据 变动 ,整个 体系 将 不 得 不 随 之 修改 。 因 此 ,我 们 进行 数据 集成 将 面 
临 如 何 适 应 现代 社会 发 展 的 复杂 需求 有 效 扩展 应 用 领域 ,分离 实 现 技术 和 应 用 需求 , 充 
分 描述 各 种 数据 源 格式 以 及 发 布 和 进行 数据 交换 等 问题 。 


5.3.1 数据 集成 概述 


1. 数据 集成 模型 分 类 


数据 集成 是 把 不 同 来 源 ,格式 、 特 点 ,性质 的 数据 在 逻辑 上 或 物理 上 有 机 地 集中 ,从 而 
为 企业 提供 全 面 的 数据 共享 。 在 企业 数据 集成 领域 ,已 经 有 了 很 多 成 熟 的 框架 可 以 利用 。 
目前 通常 采用 联邦 式 、 基 于 中 间 件 模型 和 数据 仓库 等 方法 来 构造 集成 的 系统 ,这 些 技术 在 
不 同 的 着 重点 和 应 用 上 解决 数据 共享 和 为 企业 提供 决策 支持 。 在 这 里 将 对 这 几 种 数据 集 
成 模型 做 一 个 基本 的 分 析 。 

1) 联邦 数据 库 系统 (FDBS) 

由 半 自 治 数据 库 系统 构成 ,相互 之 间 分 享 数据 ,联盟 各 数据 源 之 间 相 互 提 供 访 问 接 
口 , 同 时 联盟 数据 库 系统 可 以 是 集中 数据 库 系统 或 分 布 式 数据 库 系统 及 其 他 类 型 数据 库 ， 
松 耦 合 而 不 提供 统一 的 接口 ,但 可 以 通过 统一 的 语言 访问 数据 源 , 其 中 的 核心 是 必须 解决 
所 有 数据 源 语义 上 的 问题 。 

2) 中 间 件 模式 

是 目前 比较 流行 的 数据 集成 方法 , 它 通过 在 中 间 层 提供 一 个 统一 的 数据 逻辑 视图 来 
隐藏 底层 的 数据 细节 ,使 得 用 户 可 以 把 集成 数据 源 看 为 一 个 统一 的 整体 。 这 种 模型 下 的 
关键 问题 是 如 何 构造 这 个 逻辑 视图 并 使 得 不 同 数据 源 之 间 能 映射 到 这 个 中 间 层 。 

通过 统一 的 全 局 数据 模型 来 访问 异 构 的 数据 库 、. 遗 留 系统 .Web 资源 等 。 中 间 件 位 
于 蜡 构 数据 源 系统 (数据 层 ) 和 应 用 程序 (应 用 层 ) 之 间 , 向 下 协调 各 数据 源 系统 ,向 上 为 访 
问 集成 数据 的 应 用 提供 统一 数据 模式 和 数据 访问 的 通用 接口 。 各 数据 源 的 应 用 仍然 完成 
它们 的 任务 ,中 间 件 系统 则 主要 集中 为 异 构 数 据 源 提供 一 个 高 层次 检索 服务 。 

3) 数据 仓库 

数据 仓库 是 在 企业 管理 和 决策 中 面向 主题 的 、 集 成 的 ,与 时 间 相关 的 和 不 可 修改 的 数 
据 集合 。 其 中 ,数据 被 归 类 为 广义 的 、 功 能 上 独立 的 .没有 重叠 的 主题 。 这 几 种 方法 在 一 
定 程 度 上 解决 了 应 用 之 间 的 数据 共享 和 互通 的 问题 ,但 也 存在 以 下 的 异同 : 联邦 数据 库 
系统 主要 面向 多 个 数据 库 系统 的 集成 ,其 中 数据 源 有 可 能 要 映射 到 每 一 个 数据 模式 , 当 集 
成 的 系统 很 大 时 ,对 实际 开发 将 带 来 巨大 的 困难 。 

数据 仓库 技术 在 另外 一 个 层面 上 表达 数据 之 间 的 共享 , 它 主要 是 为 了 针对 企业 某 个 
应 用 领域 提出 的 一 种 数据 集成 方法 ,也 就 是 我 们 在 上 面 所 提 到 的 面向 主题 并 为 企业 提供 
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数据 挖掘 和 决策 支持 的 系统 。 

2. 数据 高 速 缓 存 器 是 关键 

对 数据 集成 体系 结构 来 说 ,关键 是 拥有 一 个 包含 有 目标 计划 、 源 -目标 映射 ,数据 获 
得 、 分 级 抽取 、 错 误 恢 复 和 安全 性 转换 的 数据 高 速 缓存 器 。 此 外 ,数据 高 速 缓存 器 包含 有 
预先 定制 的 数据 抽取 工作 ,这 些 工作 自动 位 于 一 个 企业 的 后 端 及 数据 仓库 之 中 。 

一 个 高 速 缓存 器 作为 企业 和 电子 商务 数据 的 一 个 单一 集成 点 ,最 大 限度 地 减少 了 对 
直接 访问 后 端 系统 和 进行 复杂 实时 集成 的 需求 。 这 个 高 速 缓存 器 从 后 端 系统 中 印 载 众多 
不 必要 的 数据 请 求 ,因此 使 电子 商务 公司 可 以 增加 更 多 的 用 户 , 同 时 让 后 端 系统 从 事 其 指 
定 的 工作 。 

数据 集成 软件 与 企业 应 用 集成 厂商 和 程序 集成 商 进 行 联合 ,而 不 是 取代 它们 。 的 确 ， 
由 于 数据 集成 软件 越 来 越 普遍 地 被 用 来 作为 B2B 集成 的 一 个 工具 , 它 会 引 人 注 目地 改造 
B2B 集成 商 一 起 合作 的 方式 以 及 企业 向 Internet 迁移 的 方式 。 

3. 数据 集成 对 于 企业 信息 系统 的 作用 


数据 集成 的 出 现 使 企业 能 够 将 后 端的 ERP 信息 迁移 到 Internet 上 。 数 据 集成 产品 
在 一 个 公司 的 Internet 计算 机 与 SAP、Oracle 和 PeopleSoft 等 公司 的 后 端 系统 之 间 提 供 
“高 速 缓存 ”或 数据 分 级 。 

数据 集成 提供 了 在 一 个 企业 主 计算 机 上 存储 的 后 端 信息 的 一 个 镜像 。 当 一 个 
Internet 客户 需要 检查 一 项 订单 的 状态 时 ,这 项 查询 就 被 转移 到 数据 集成 软件 。 因 此 ,并 
非 总 需要 访问 该 企业 的 主 计算 机 。 数 据 集成 软件 拥有 足够 的 智能 ,知道 什么 时 候 与 主 计 
算 机 保持 同步 以 便 使 数据 不 断 更 新 。 为 电子 商务 应 用 集成 ERP 数据 是 通过 数据 分 级 和 
直接 访问 ERP 数据 这 两 者 的 结合 来 完成 的 , 它 包 括 使 用 一 个 数据 服务 器 和 一 些 数据 高 速 
缓存 器 。 数 据 集成 软件 以 智能 方式 将 直接 实时 的 和 分 批 的 数据 存 取 方 法 混合 起 来 ,以 便 
从 一 个 ERP 系统 中 抽取 数据 。 

数据 从 一 个 或 多 个 源 前 进 到 一 个 或 多 个 目标 表 以 及 信息 类 型 (如 XML) ,数据 移动 的 
步骤 包括 确定 应 该 从 中 抽取 数据 的 源 . 数 据 应 当 进 行 的 转换 以 及 向 什么 地 方 发 送 数据 。 
用 户 通 过 一 个 图 形 用 户 接口 来 指定 数据 映射 和 转换 。 

由 用 户 定义 的 程序 控制 每 一 块 数据 的 移动 并 确定 这 种 移动 之 间 的 内 部 相关 性 。 例 
如 ,如 果 一 个 目标 表 依靠 其 他 目标 表 的 值 , 则 使 用 一 些 程序 来 指定 一 个 数据 服务 器 应 当 按 
什么 次 序 来 管理 这 些 目标 表 中 的 单个 数据 移动 。 数 据 移动 可 以 被 设计 来 以 批量 方式 或 实 
时 方式 运行 ,并 由 管理 员 来 创建 和 管理 ,以 控制 ERP、 电 子 商务 、 客 户 关系 管理 ,供应 链 管 
理 以 及 通信 应 用 之 间 的 数据 移动 。 

数据 移动 使 用 分 布 式 查询 优化 .多 线程 .存储 器 内 数据 转换 和 并 行 流水 线 操作 来 提供 
很 高 的 数据 通过 量 和 可 伸缩 性 。 例 如 ,要 管理 抽取 程序 并 从 SAP 软件 中 来 执行 批量 数据 
抽取 ,可 使 用 优化 的 ABAP 代码 (SAP 的 专 有 编程 语言 ), 不 需要 开发 和 维护 定制 的 
ABAP 代码 。 

数据 集成 是 企业 进一步 发 展 面 临 的 问题 。 通 过 数据 模型 建 模 和 相关 应 用 技术 在 企业 
信息 集成 应 用 上 做 了 一 定 的 分 析 。 在 有 效应 用 模型 设计 思想 开发 应 用 的 同时 ,应 重点 把 
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握 以 下 几 点 。 

(1) 模型 的 时 效 性 : 包括 开发 期 模型 和 运行 期 模型 ,而 运行 期 模型 则 显示 了 模型 驱 
动 的 核心 思想 。 

(2) 模型 的 进化 性 : 它 揭示 了 模型 是 否 可 以 根据 应 用 的 变化 而 自我 进行 改变 。 

(3) 模型 的 层级 性 : 随 着 系统 的 复杂 性 增加 ,模型 可 以 由 多 层级 构成 。 

4. 传统 数据 集成 方法 的 不 足 


传统 数据 集成 方法 存在 不 足 之 处 。 它 们 不 能 解决 当今 IT 环境 的 复杂 性 ,也 不 能 覆 
盖 IT 必须 执行 的 一 系列 方案 的 处 理 。 

对 于 连接 数 百 (或 数 千 ) 个 应 用 程序 的 不 同 单 点 解决 方案 ,它们 仅仅 分 裂 运营 数据 并 
将 其 锁定 在 部 门 应 用 程序 中 ,例如 ERP 和 CRM。 以 应 用 程序 为 中 心 的 数据 集成 方法 没 
有 考虑 所 有 企业 数据 。 例 如 ,它们 不 能 处 理 计划 数据 ,这 些 计划 数据 通常 保存 在 Excel 电 
子 数据 表 中 ,而 未 保存 在 部 门 数据 库 应 用 程序 中 。 它 们 也 不 能 解决 驻 留 在 企业 外 部 的 有 
关 BPO 或 SaaS 供应 商 的 数据 或 与 贸易 合作 伙伴 共享 的 数据 。 

手动 编码 数据 集成 方法 也 不 起 作用 。 手 动 编码 费时 费力 ,并 且 还 容易 犯错 。 由 于 IT 
机 构 力求 管理 更 多 的 数据 和 更 多 的 数据 格式 ,手动 编码 通常 导致 更 复杂 一 一 而 不 是 更 简 
单 。 它 会 增加 维护 成 本 并 使 IT 效率 下 降 。 

在 数据 质量 方面 的 表现 如 何 ? 传统 数据 集成 方法 无 法 保证 所 有 数据 (客户 数据 、 物 料 
与 资产 数据 以 及 财务 数据 ) 保 持 完整 一致 ,准确 和 最 新 ,而 无 论 数 据 驻 留 于 何 处 。 

如 果 继 续 采 用 传统 方法 进行 数据 集成 , 即 按 部 门 . 按 应 用 程序 或 按 数 据 库 , 在 “孤岛 ” 
中 进行 数据 集成 ,那么 有 可 能 需要 花费 更 多 时 间 和 金钱 来 管理 复杂 情况 并 “保持 业务 持续 
运转 ”, 而 不 是 集中 精力 来 处 理 新 的 业务 规则 。 

5 新 的 数据 集成 方法 的 特点 

IT 机 构 需 要 采用 可 靠 的 新 方法 进行 数据 集成 ,这 些 新 方法 可 以 完成 如 下 工作 : 
集成 企业 内 的 所 有 内 部 预 置 数据 孤岛 ,包括 非 结 构 化 数据 。 
集成 云 计算 应 用 程序 和 系统 中 的 外 部 数据 。 
与 贸易 合作 伙伴 之 间 以 企业 对 企业 的 形式 无 缝 交换 数据 。 
确保 所 有 数据 的 质量 。 

。 经 济 高 效 地 管理 应 用 程序 生命 周期 。 

数据 集成 平台 是 一 整套 全 面 的 技术 ,包括 访问 发 现 、 清 洗 、 集 成 并 为 扩张 的 企业 提供 
数据 。 数 据 集成 平台 支持 各 种 数据 集成 项 目 , 例 如 ,数据 仓库 数据 迁移 、 测 试 数据 管理 、 
数据 存档 ,数据 整合 、 主 数据 管理 ,数据 同步 .B2B Data Exchange。 


6. 理想 的 数据 集成 平台 


数据 集成 平台 必须 解决 企业 间 数 据 碎片 的 问题 ,以 更 快 地 做 出 数据 驱动 型 业务 决策 
和 更 有 效 地 进行 业务 运作 。 它 必须 作为 企业 技术 基础 提供 服务 ,提供 容易 掌控 的 方法 来 
集成 数据 。 
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要 满足 这 些 需求 ,数据 集成 平台 必须 具备 四 个 特性 : 全 面 统一、 开放 和 经 济 。 

1) 全 面 

理想 的 数据 集成 平台 必须 具备 全 面 的 功能 集 , 使 IT 机 构 可 以 根据 要 求 随时 随地 为 
企业 提供 可 以 信赖 的 数据 。 借 助 一 整套 可 随意 支配 的 数据 集成 功能 ,IT 机 构 的 生产 效率 
可 以 获得 数 十 倍 的 提升 。 

2) 支持 完整 的 数据 集成 生命 周期 

数据 集成 平台 必须 支持 数据 集成 生命 周期 中 的 所 有 五 个 关键 步骤 : 访问 ,发现 、 清 
洗 、 集 成 和 交付 ( 见 图 5. 4) 。 


Informatlca 平 台 








5.4 数据 集成 生命 周期 


第 1 步 : 访问 。 

大 多 数 机 构 的 数据 存储 在 数 千 个 位 置 ,不 只 限于 企业 内 部 ,还 存放 在 防火 墙 外 的 业务 
合作 伙伴 或 SaaS 供应 商 的 “ 云 " 中 。 无 论 何 种 来 源 或 结构 ,所 有 数据 都 必须 可 以 接受 访 
问 。 必 须 从 隐秘 的 大 型 主机 系统 、 关 系数 据 库 \ 应 用 程序 、XML ,消息 甚至 从 电子 数据 表 
之 类 的 文档 中 提取 数据 。 

第 2 步 : 发 现 。 

数据 源 一 一 特别 是 记录 不 详尽 或 来 源 未 知 一 一 必须 探查 才能 了 解 其 内 容 和 结构 。 需 
要 推断 数据 中 隐 含 的 模式 和 规则 。 必 须 标记 潜在 的 数据 质量 问题 。 

第 3 步 : 清洗 。 

必须 清洗 数据 以 确保 其 质量 .准确 性 和 完整 性 。 必 须 解 决 错误 或 疏漏 问题 。 必 须 强 
制 执行 数据 标准 ,并 且 对 值 进行 验证 。 必 须 删 除 重复 的 数据 条 目 。 

第 4 步 : 集成 。 

要 跨越 多 个 系统 保持 一 致 的 数据 视图 ,必须 集成 并 转换 数据 ,以 便 协 调 不 同系 统 在 定 
义 各 种 数据 元 素 并 使 之 结构 化 的 方式 上 存在 的 差异 。 例 如 ,对 于 “客户 盈利 ”, 营 销 系统 和 
财务 系统 可 能 具有 完全 不 同 的 业务 定义 和 数据 格式 ,这 些 差 异 必 须 得 到 解决 。 

第 5 步 : 交付 。 

必须 以 适当 的 格式 、 在 适当 的 时 间 将 适当 的 数据 交付 给 所 有 需要 数据 的 应 用 程序 和 
用 户 。 交 付 数据 的 范围 涵盖 从 支持 实时 业务 运营 的 单个 数据 元 素 或 记录 到 用 于 趋势 分 析 
和 企业 报告 的 数 百 万 个 记录 。 必 须 确保 数据 的 高 可 用 性 和 交付 安全 性 。 

此 外 ,数据 集成 平台 还 必须 支持 如 下 各 部 分 工作 : 

(1) 审计 ,管理 和 监控 。 

数据 管理 员 和 IT 管理 员 需 要 协作 进行 审计 管理 和 监控 数据 。 不 断 地 对 关键 指标 
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(例如 数据 质量 ) 进 行 衡量 , 随 着 时 间 的 推移 这 些 指标 会 得 到 有 目 共 暑 的 稳步 提高 。 这 是 
为 了 跟踪 关键 数据 属性 的 进度 ,并 标记 任何 新 问题 ,以 便 在 将 数据 传 回 数据 集成 生命 周期 
之 后 ,可 以 解决 这 些 问 题 并 不 断 改 进 。 

(2) 定义 .设计 和 开发 。 

业务 分 析 师 .数据 架构 师 和 IT 开发 人 员 需 要 一 套 功能 强大 的 工具 来 帮助 他 们 在 定 
义 ,设计 和 开发 数据 集成 规则 与 流程 上 展开 合作 。 数 据 集成 平台 应 包括 一 套 常用 的 集成 
工具 ,以 确保 所 有 人 员 一 起 有 效 工作 。 

(3) 数据 集成 平台 必须 足够 可 靠 、 灵 活 和 可 扩展 ,以 处 理 任何 一 类 型 的 数据 集成 项 
目 , 其 中 包括 数据 仓库 数据 迁移 、 测 试 数据 管理 和 存档 ,数据 整合 \ 主 数据 管理 数据 同 
步 .B2B Data Exchange。 

从 单个 部 门 的 数据 仓库 项 目 到 全 局 数据 迁移 项 目 ,IT 机 构 可 以 一 次 性 开展 许多 类 型 
的 数据 集成 项 目 。 项 目 团队 需要 能 够 从 小 规模 的 一 个 项 目 类 型 入 手 ,然后 在 接 下 来 的 项 
目 中 重复 运用 相同 的 技术 和 资产 一 一 通过 共享 元 数据 实现 。 

(4) 数据 集成 平台 需要 能 够 处 理 分 析 数据 集成 (报告 和 分 析 ), 还 要 能 够 处 理 运营 数 
据 集成 (与 运营 执行 相关 的 业务 流程 ) 。 

(5) 可 以 在 任何 周期 提供 数据 。 

对 于 数据 集成 ,存在 跨度 很 广 的 一 系列 时 间 范 围 和 周期 要 求 , 这 取决 于 应 用 程序 和 使 
用 案例 。 某 些 项 目 要求 按 月 或 按 周 集成 数据 ;而 另外 一 些 项 目 需要 按 秒 提供 集成 的 数据 。 
IT 机 构 需 要 能 够 灵活 更 改 周期 要 求 ,而 不 必 重 新 构建 整个 基础 结构 。 

如 图 5. 5 所 示 ,理想 的 数据 集成 平台 必须 在 整个 周期 范围 内 提供 支持 .根据 应 用 程序 
或 用 户 需要 随时 提供 可 信任 的 数据 一 一 无 论 以 实时 、 批 量 还 是 变更 数据 捕获 的 方式 。 

管理 控制 台 数据 质量 仪表 板 
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图 5.5 基于 角色 的 协作 
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3) 统一 

单个 的 统一 数据 集成 平台 可 大 大 简化 IT 团队 的 工作 。 当 具备 扩展 型 企业 (从 单一 
供应 商 发 展 成 ) 所 需 的 所 有 数据 集成 能 力 时 ,通过 基于 角色 的 协作 .共享 元 数据 和 单一 的 
统一 运行 时 引擎 ,可 最 大 限度 地 提高 工作 效率 。 

(1) 基于 角色 的 协作 。 

数据 集成 项 目 包括 充当 多 个 角色 的 IT 和 业务 人 员 。 他 们 都 肩负 着 有 待 完 成 .差别 
很 大 的 任务 ,可 以 提供 不 同 的 技能 。 每 个 角色 都 需要 一 套 特别 为 其 设计 的 不 同 工 具 。 同 
时 ,项 目 团队 成 员 必须 精诚 合作 共同 承担 工作 和 任务 ,以 提高 跨 团队 的 工作 效率 并 确保 
IT 和 业务 部 门 的 协调 。 

如 图 5.5 所 示 ,理想 的 数据 集成 平台 提供 角色 专用 的 工具 ,这 些 工 具 专 门 针对 每 人 的 
技能 和 任务 而 设计 。 这 些 角色 专用 的 工具 拥有 一 致 的 界面 。 这 些 工具 拥有 相同 的 界面 和 
使 用 感受 ,并 且 相 互 集 成 。 因 此 ,它们 易学 易 用 。 通 过 跨越 不 同 数据 集成 项 目 重复 使 用 资 
产 , 团 队 成 员 能 够 快速 启动 运行 并 保持 高 效 。 

(2) 共享 元 数据 。 

数据 集成 平台 必须 提供 共享 的 元 数据 。 平 台 内 的 每 个 工具 必须 能 够 访问 有 关 数 据 存 
储 位 置 的 元 数据 以 及 与 其 关联 的 业务 规则 和 逻辑 。 借 助 共享 的 元 数据 ,大 家 可 以 共同 处 
理 同一 件 事 。 分 析 师 和 开发 人 员 可 以 处 理 不 同类 型 的 元 数据 或 者 用 不 同方 式 查看 相同 的 
元 数据 ,并 仍然 保持 有 效 协 作 。 元 数据 保持 一 致 ,并 且 每 个 用 户 均 能 轻松 查看 潜在 的 更 改 
可 能 带 来 的 影响 。 

(3) 统一 的 运行 时 引擎 。 

数据 集成 平台 的 关键 是 单个 的 运行 时 引擎 。 组 成 平台 的 各 个 单独 的 产品 应 全 都 在 简 
化 实施 ,管理 和 维护 的 相同 引擎 上 运行 。 单 个 引擎 确保 可 以 更 为 方便 地 升级 多 个 版 本 。 
平台 必须 为 企业 级 部 署 而 设计 ,具备 可 靠 的 可 扩展 性 、 可 用 性 和 安全 性 ,这 样 就 可 以 在 该 
平台 上 放心 开展 业务 。 

4) 开放 

开放 .中立 的 数据 集成 平台 旨 在 能 够 在 当前 的 IT 环境 中 兼容 一 切 一 一 硬件 ,软件 、 
技术 标准 ,以 及 未 来 要 添加 的 任何 内 容 。 开 放 的 平台 能 保护 企业 免 于 有 关 供 应 商 瓶 颈 的 
风险 。 

(1) 访问 任何 来 源 的 数据 。 

大 多 数 机 构 以 数 百 种 不 同 格式 来 存储 数据 : 企业 应 用 程序 数据库、 平面 文件 、 消 
息 队 列 . 电 子 数据 表 和 其 他 文档 。 数 据 集成 平台 必须 处 理 任何 数据 类 型 或 格式 ,包括 
任何 来 源 的 结构 化 和 非 结 构 化 数据 和 所 有 主 数 据 类 型 ,例如 客户 数据 、 产 品 数据 和 财 
务 数据 。 

越 来 越 多 的 数据 迁移 要 跨越 公司 防火 墙 和 * 移 人 云 ”。 随 着 更 多 公司 依赖 人 力 资源 应 
用 程序 和 CRM 应 用 程序 的 SaaS 提供 商 , 云 计算 变 得 更 为 主流 。 数 据 集成 平台 必须 能 够 
访问 驻 留 在 企业 外 部 的 数据 。 这 包括 来 自 多 个 业务 实体 的 数据 和 分 布 在 许多 不 同 地 理 位 
置 和 国家 /地 区 的 数据 。 

(2) 降低 风险 。 

IT 格局 正在 改变 。 这 导致 不 确定 性 。IT 机 构 需要 采用 策略 来 降低 这 种 变化 带 来 的 
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风险 。 你 需要 一 个 数据 集成 平台 , 它 支持 从 操作 系统 到 数据 库 的 当前 所 有 技术 标准 。 它 
必须 是 开放 式 的 ,确保 能 够 与 现 有 或 将 来 可 能 配置 的 一 切 内 容 兼容 。 这 包括 在 企业 与 
“ 云 ” 中 或 合作 伙伴 的 全 部 各 种 应 用 程序 和 数据 源 。 

5) 经 济 

经 济 的 数据 集成 平台 能 够 带 来 尽 可 能 低 的 总 拥有 成 本 (TCO) 和 最 快 、 最 高 的 投资 回 
报 (ROD 。 在 当前 严峻 的 经 济 环境 下 ,现在 和 将 来 的 每 笔 技 术 投 资 都 要 接受 严格 审查 , 评 
估 其 帮助 IT 机 构 和 业务 的 能 力 , 因 此 这 些 因素 目前 显得 特别 重要 ,主要 涉及 的 因素 有 降 
低 成 本 、 更 为 高 效 地 运营 ,快速 产生 价值 更 低 的 总 拥有 成 本 。 

经 济 的 数据 集成 平台 能 够 获得 更 快 的 投资 回报 。 

在 数据 集成 平台 中 获得 快速 的 投资 回报 取决 于 能 否 迅速 行动 并 投入 使 用 。 从 而 需要 
增加 IT 资源。 


5.3.2 数据 集成 方案 


继 系统 集成 .应 用 集成 .业务 集成 之 后 ,数据 集成 (Data Integration,DI) 已 渐 被 各 大 
企业 纷纷 触及 。 目 前 国内 大 多 数 企 业 还 仅 停留 在 服务 于 单个 系统 的 多 对 一 架构 数据 集成 
应 用 ,这 种 架构 常见 于 数据 仓库 系统 领域 ,服务 于 企业 的 商务 智能 。 早 期 那些 数据 集成 大 
家 大 都 是 从 ETL 启蒙 开始 的 ,当时 ETL 自然 也 就 成 了 数据 集成 的 代名词 ,只 是 忽 如 一 夜 
春风 来 ,各 厂商 相继 推出 DI 新 概念 后 ,我 们 不 得 不 再 次 接受 新 一 轮 的 DI 洗脑, 首 推 的 有 
SAS DI,Business Objects DI,Informatica DI、Oracle DI(ODD) 等 厂商 。 

数据 集成 主要 是 指 基 于 企业 分 散 的 信息 系统 的 业务 数据 进行 青 集 中 、 青 统一 管理 的 
过 程 , 是 一 个 渐进 的 过 程 ,只 要 有 新 的 ,不 同 的 数据 产生 ,就 不 断 有 数据 集成 的 步骤 执行 。 
企业 经 历 了 几 年 的 信息 化 发 展 ,凌乱 重复 ,歧义 的 数据 接 哑 而 至 ,数据 集成 的 空间 与 需求 
日 渐 迫 切 ,企业 需要 一 个 主 数据 管理 (Master Data Manager) 系统 来 统一 企业 的 产品 信 
息 .客户 信息 ;企业 需要 一 个 数据 仓库 (Data Warehouse) 系统 来 提高 领导 层 的 决策 意识 ， 
加 快 市 场 战略 调整 行动 ;企业 需要 一 个 数据 中 心 (Data Center) 系 统 来 集中 交换 、 分 发 . 调 
度 .管理 企业 基础 数据 。 

数据 集成 的 必要 性 .迫切 性 不 言 而 喻 ,不 断 被 推 至 企业 信息 化 战略 规划 的 首要 位 置 。 
要 实现 企业 数据 集成 的 应 用 ,不 仅 要 考虑 企业 急需 集成 的 数据 范围 ,还 要 从 长 远 发 展 考虑 
数据 集成 的 架构 .能力 和 技术 等 方面 内 容 。 从 数据 集成 应 用 的 系统 部 署 .业务 范围 .实施 
成 熟 性 看 主要 可 分 为 三 种 架构 : 单个 系统 数据 集成 架构 ,企业 统一 数据 集成 架构 ,机构 之 
间 数 据 集成 架构 。 

1 单个 系统 数据 集成 架构 

单个 系统 数据 集成 架构 是 国内 目前 应 用 最 广 的 架构 , 主要 是 以 数据 仓库 系统 为 代表 
提供 服务 而 兴建 的 数据 集成 平台 ,面向 企业 内 部 如 ERP、 财 务 .OA 等 多 各 业务 操作 系统 ， 
集成 企业 所 有 基础 明细 数据 ,转换 成 统一 标准 , 按 星 型 结构 存储 ,面向 市 场 经 营 分 析 、 客 户 
行为 分 析 等 多 个 特有 主题 进行 商务 智能 体现 。 这 种 单个 系统 数据 集成 应 用 架构 的 主要 特 
点 是 多 对 一 的 架构 、 复 杂 的 转换 条 件 .TB 级 的 数据 量 处 理 与 加 载 ,数据 存储 结构 特殊 , 星 
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型 结构 ,多维 立方 体 并 存 , 数 据 加 载 层级 清晰 。 单 个 系统 数据 集成 架构 见 图 5. 6 所 示 。 
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图 5.6 单个 系统 数据 集成 架构 


2. 企业 统一 数据 集成 架构 


组 织 结构 较 复 杂 的 大 型 企业 ,政府 机 构 尤 为 偏爱 这 种 数据 集成 的 架构 ,因此 类 单位 具 
有 业务 结构 相对 独立 数据 权力 尤为 敏感 数据 接口 复杂 繁多 等 特征 ,更 需要 多 个 部 门 一 
起 协商 来 建立 一 个 统一 的 数据 中 心平 台 ,以 满足 部 门 之 间 频 繁 的 数据 交换 的 需求 。 如 金 
融 机 构 , 电 信 企 业 ,公安 、 税 务 等 政府 机 构 , 业 务 独立 ,层级 管理 的 组 织 结构 决定 了 内 部 数 
据 交互 的 复杂 性 。 概 括 来 说 ,此 类 应 用 属于 多 对 多 的 架构 数据 交换 频繁 要 有 独立 的 数 
据 交换 存储 池 、 数 据 接口 与 数据 类 型 繁多 等 特点 。 

对 于 企业 管理 性 、 决 策 性 较 强 的 信息 系统 ,如 主 数据 管理 系统 、 财 务 会 计 管理 系统 、 数 
据 仓库 系统 等 数据 可 直接 来 源 于 数据 中 心 ,摆脱 了 没有 企业 数据 中 心 前 的 一 对 多 交叉 的 
困扰 ,避免 了 业务 系统 对 应 多 种 管理 系统 时 需要 数据 重复 传送 ,如 CRM 系统 中 新 增 一 条 
客户 信息 数据 后 ,直接 发 送 到 企业 数据 中 心 , 由 企业 数据 中 心 面向 风险 管理 系统 、 数 据 仓 
库 系统 、 主 数据 管理 系统 进行 分 发 即 可 。 

企业 统一 数据 集成 架构 见 图 5.7 所 示 。 


3. 机 构 之 间 数 据 集成 架构 


这 种 架构 多 是 应 用 于 跨 企业 、 跨 机 构 、 多 个 单位 围绕 某 项 或 几 项 业务 进行 的 业务 活 
动 , 或 由 一 个 第 三 方 机 构 来 进行 协调 这 些 企业 、 机 构 之 间 的 数据 交换 、 制 定 统一 数据 标准 ， 
从 而 形成 一 个 多 机 构 之 间 的 数据 集成 平台 。 如 中 国 银联 与 各 商业 银行 之 间 的 应 用 案例 、 
各 市 政府 信息 中 心 与 市 政府 各 机 关 单 位 之 间 的 应 用 案例 、 外 贸 EDI( 海 关 、 检 验 检疫 局 、 外 
汇 局 ,银行 ,保险 ,运输 等 ).BTOB 电子 商务 平台 等 。 这 类 应 用 属于 跨 多 企业 、 单 位 多 对 多 
的 架构 ,具有 数据 网 络 复杂 数据 安全 性 要 求 高 数据 交换 实时 性 强 等 特点 。 

尤其 这 类 架构 颇具 一 些 特点 值得 进一步 去 剖析 。 因 数据 集成 平台 是 架 于 多 企业 、 单 
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图 5.7 企业 统一 数据 集成 架构 


位 之 间 ,数据 的 安全 性 、 独 立 性 决定 了 各 企业 .单位 不 得 不 考虑 前 置 机 的 部 署 形式 ,各 企 
业 、 单 位 在 业务 系统 与 数据 集成 平台 之 间 增 加 一 台 前 置 机 , 则 更 有 利于 自 有 系统 数据 的 独 
立 与 安全 ,也 更 利于 数据 平台 对 数据 的 获取 ,分 发 ,交换 的 统一 要 求 。 另 外 ,数据 集成 平台 
也 要 具有 更 多 的 技术 功能 来 满足 众多 单位 的 众多 数据 接口 ,多 种 数据 类 型 ,不一致 的 数据 
标准 数据 交换 的 实时 性 、 对 数据 的 抽取 与 推送 (Pull AND Push) 等 业务 需求 。 如 数据 集 
成 平台 需 具 有 数据 连通 .ETL 数据 实时 数据 清洗 、 数 据 质 量 \ 企 业 服务 总 线 (Enterprise 
Service Bus,ESB) ,面向 服务 的 体系 结构 (Service-Oriented Architecture, SOA) 等 一 些 技 
术 与 特点 。 

机 构 之 间 数 据 集成 架构 如 图 5. 8 所 示 。 

以 上 三 种 数据 集成 架构 ,一 种 是 对 应 于 某 一 个 应 用 系统 的 多 对 一 架构 ,一 种 是 完成 企 
业内 部 众多 系统 之 间 数 据 交 换 的 多 对 多 架构 ,一 种 是 为 多 个 跨 企业 .单位 机 构 实现 某 一 项 
或 几 项 业务 活动 而 建立 的 多 对 多 架构 ,数据 集成 的 应 用 差不多 都 是 基于 这 三 种 架构 ,每 种 
架构 可 能 会 对 应 多 种 数据 集成 的 应 用 。 国 内 企业 常见 的 数据 集成 应 用 有 数据 仓库 、 数 据 
同步 数据 交换 , 随 着 企业 并 购 .新 旧 系 统 升 级 、 分 布 系统 向 数据 大 集中 看 齐 、 电 子 商 务 的 
发 展 . 多 个 企业 单位 协同 作业 等 等 众多 业务 需求 的 诞生 ,数据 集成 的 应 用 开始 纷繁 异 景 
起 来 。 


5.3.3 企业 数据 集成 应 用 形式 


目前 大 部 分 数据 集成 软件 厂商 都 是 围绕 数据 仓库 (Data Warehousing)、 数 据 迁 移 
(Data Migration) 数据 合并 (Data Consolidation) .数据 同步 (Data Synchronization) 、 数 
据 交 换 (Data Hubs 或 者 叫 主 数据 管理 : Master Data Management) 这 5 种 常见 的 企业 应 


和 58 ，。 大 政 据 技术 及 应 用 教程 


人 司 数据 集成 平台 全 -| 
人 力 资 源 和 
社会 保障 局 
基础 库 主题 


Ul 



































， i 
工商 局 Data Cleansing 二 Grid 
[Baa Profiing Partition 
[Baa Federation... High Availability... 
@&@ 统一 数 据 搂 口服 务 TD 
民政 局 其 他 局 
Applications Databases Messages Flatfiles XML Unstructured Data w 
-一 电子 政务 网 络 基础 设施 











图 5.8 机 构 之 间 数 据 集成 架构 


用 形式 来 发 展 各 自 的 产品 技术 。 
1. 数据 仓库 (Data Warehousing) 应 用 


数据 仓库 中 的 数据 集成 应 用 主要 是 围绕 ETL 的 功能 来 实现 ,一 般 来 说 其 主要 功能 是 
将 多 个 业务 系统 不 同 种 数据 类 型 的 数据 抽取 到 数据 仓库 的 ODS(Operational Data Store) 
层 , 经 过 转换 ,加 载 存 储 到 星 型 结构 的 DW(Data Warehouse) 层 ,为 满足 不 同 主题 的 展现 
应 用 ,再 向 关系 型 数据 库 或 多 维 数据 库 进一步 汇总 加 载 ， 

其 ETL 功能 可 由 手工 编程 或 专业 工具 软件 这 两 种 类 型 来 9 
实现 。 数据 仓库 应 用 如 图 5.9 所 示 。 Dn 

第 一 种 类 型 :由 手工 编程 到 专项 ETL 工具 的 应 用 ,这 3 
种 应 用 类 型 是 成 熟 的 数据 集成 软件 工具 的 雏形 ,是 为 快速 
达成 项 目 功能 需求 为 主 ,满足 复杂 的 业务 处 理 的 需要 ,以 a 
ETL 为 核心 应 用 ,开发 技术 也 发 挥 得 淋漓 尽 致 ,PB、Java、 

SQL、 存 储 过 程 .C/C++ 都 可 能 会 悉数 登场 ,多 一 种 系统 的 图 所 8 数据 仓库 应 用 
数据 集成 就 可 能 会 有 多 于 一 倍 的 开发 工作 量 , 使 数据 集成 

平台 更 趋 于 复杂 脆弱。 另外 ,如 电信 、 金 融 、 税 务 . 公 安 等 行业 的 众多 系统 集成 商 针 对 各 
自 的 业务 系统 也 开发 有 专项 的 数据 集成 工具 ,只 是 有 一 定 的 局 限 性 ,拘泥 于 某 一 种 应 用 或 
某 一 特定 的 系统 环境 。 

第 二 种 类 型 : 众多 成 熟 的 数据 集成 软件 工具 的 应 用 为 这 一 代表 ,如 Informatica 
PowerCenter .IBM Datastage、Oracle ODI、Microsoft SISS 等 , 集 各 种 数据 接口 .ETL , 数 
据 质 量 、 实 时 数据 联邦 、 分 区 并 行 、 网 格 、HA 等 技术 于 一 身 ,历练 世界 众多 客户 需求 多 
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时 ,具有 更 宽广 的 应 用 、 可 扩展 性 强 、 安 全 稳定 等 一 些 特点 。 


2. 数据 迁移 (Data Migration) 应 用 


这 种 应 用 比较 容易 理解 ,对 于 新 旧 系 统 升 级 ,数据 大 集中 时 的 数据 作 迁 移 , 使 数据 更 
能 顺应 新 系统 的 结构 变化 而 平稳 迁移 。 数 据 迁 移 应 用 如 图 5. 10 所 示 。 


3. 数据 合并 (Data Consolidation) 应 用 


在 企业 并 购 中 很 容易 产生 数据 合并 的 应 用 ,如 两 个 企业 的 HR 系统 的 合并 、 财 务 系 
统 的 合并 、 其 他 业务 系统 的 合并 , 当 系统 需要 合并 必然 产生 数据 的 合并 ,因此 对 企业 数据 
进行 统一 标准 化 ,规范 化 ,数据 的 补缺 .数据 的 一 致 性 都 将 导致 数据 合并 。 数 据 合 并 应 用 
见 图 5.11 所 示 。 


图 5.10 数据 迁移 (Data Migration) 应 5.11 数据 合并 应 用 


4. 数据 同步 (Data Synchronization) 应 用 

当 企业 一 个 系统 的 业务 活动 会 影响 其 他 多 个 系统 的 进程 时 ,对 数据 的 实时 性 、 准 确 性 
就 显得 尤为 重要 。 如 航空 公司 与 航空 机 场 之 间 的 数据 同步 应 用 、 证 券 交 易 所 与 证 券 公 司 
之 间 的 股票 信息 同步 ,金融 业 的 汇率 信息 同步 等 等 ,影响 数据 同步 的 实时 性 与 可 靠 性 的 因 
素 会 有 网 络 的 连通 性 ,传输 效率 .数据 接口 ,数据 格式 等 ,这 些 诸多 因素 都 属于 数据 集成 中 
的 数据 同步 要 解决 的 问题 。 数 据 同步 应 用 见 图 5. 12 所 示 。 

5. 数据 交换 (Data Hubs) 应 用 


或 者 叫 主 数据 管理 (Master Data Management) 应 用 ,这 种 数据 集成 的 应 用 越 来 越 受 
到 企业 的 重视 。 一 般 构成 企业 主要 的 基础 数据 分 别 是 客户 数据 .产品 数据 .员工 信息 数 
据 、 供 应 商 数据 ,要 从 企业 多 个 系统 中 快速 ,可靠 地 建立 唯一 .完整 的 企业 主 数据 视图 ,这 
就 是 主 数据 管理 。 要 实现 企业 主 数据 管理 应 用 的 数据 集成 平台 ,必须 具备 有 良好 的 数据 
连通 性 ,良好 的 数据 质量 探查 与 分 析 、 良 好 的 数据 转换 能 力 等 特点 。 数 据 交换 应 用 如 


图 5.13 所 示 。 
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5.12 数据 同步 应 用 5.13 数据 交换 应 用 


上 述 提 到 跨 多 个 企业 .单位 机 构 的 架构 就 是 一 个 典型 的 主 数据 管理 应 用 ,如 公安 局 、 
工商 局 ,税务 局 、 人 事 局 劳动 社保 局 等 这 些 众多 政府 机 构 主 要 是 围绕 两 个 基本 主体 进行 
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各 项 事务 活动 : 一 个 主体 是 个 人 ,另外 一 个 主体 是 企业 单位 。 众 多 政府 机 构 对 这 两 个 主 
体 的 信息 数据 要 求 重点 不 同 、 数 据 处 理 顺序 有 先后 ,数据 变更 有 各 异 ,数据 交换 复杂 、 频 
繁 ,而 最 理想 的 境界 是 这 两 个 主体 数据 能 做 到 最 大 程度 的 同步 ,这 就 是 主 数据 管理 的 

以 上 五 种 数据 集成 应 用 解决 方案 在 国内 最 常见 的 是 数据 仓库 的 应 用 ,最 复杂 的 应 用 
应 该 是 数据 交换 了 ,不管 是 简单 还 是 复杂 的 应 用 都 以 ETL 技术 为 基础 ,ETL 技术 成 为 了 
数据 集成 的 核心 技术 ,伴随 ETL 技术 的 还 有 数据 连通 、 数 据 质量 数据 清洗 、 数 据 联邦 、 
Real-Time、 数 据 探查 等 技术 ,为 了 提高 数据 集成 的 安全 性 、 高 效 性 .可 扩展 能 力 , 还 有 
SOA .HA .GRID 等 相关 技术 作为 支撑 。 

1) ETL(Extract, TransformLoad) 

数据 集成 视 数据 抽取 、 转 换 和 加 载 为 最 基础 .最 核心 的 三 项 技术 ,这 三 个 执行 步骤 可 
根据 系统 环境 特点 调整 顺序 ,典型 的 应 用 有 ELT 的 顺序 。 如 源 与 目标 为 同 种 数据 库 或 共 
用 一 个 数据 库 时 ,可 将 数据 从 源 直接 抽取 到 目标 然后 再 进行 转换 ,效率 会 大 有 提高 ,专注 
此 类 特点 的 产品 以 Oracle 的 ODI 为 代表 。 

2) 数据 连通 (Data Connective) 

良好 的 数据 连通 性 是 数据 集成 的 能 力 体现 ,一 般 通用 的 关系 型 数据 库 .ODBC XML 
等 数据 连通 类 型 为 常见 类 型 ,还 有 一 些 就 是 大 中 型 企业 常用 的 ERP、CRM、BPM、OA 等 
应 用 软件 为 封闭 式 的 系统 ,如 SAP、Seibel、Lotus 等 系统 的 连通 ,因此 良好 的 数据 集成 平 
台 需 要 提供 来 自 更 多 企业 的 数据 连通 接口 ,抽取 源 与 装载 目标 的 范围 也 就 更 广阔 。 

3) 数据 质量 (Data Quality) 

数据 质量 越 来 越 被 企业 重视 ,数据 质量 的 技术 范围 也 越发 宽广 ,开始 慢 慢 被 剥离 出 数 
据 集成 的 范畴 。 企 业 不 能 根据 标准 不 统一 歧义、 不 正确 的 数据 快速 做 出 决策 ,只 有 站 在 
高 质量 的 数据 基础 之 上 做 出 的 决策 才 不 会 发 生 方向 偏 傈 。 通 常 实现 企业 数据 质量 管理 会 
包括 源 数据 的 探查 ,数据 质量 的 评估 、 数 据 集成 ,数据 的 完整 和 数据 的 监控 这 五 个 步 又。 
数据 的 完整 一 般 是 指 根据 现 有 基础 数据 作 其 他 数据 项 的 扩展 和 丰富 ,如 根据 客户 的 联系 
方式 来 丰富 客户 的 所 属地 区 数据 项 .根据 客户 身份 证 号 码 来 丰富 客户 的 所 属地 区 ,年龄 、 
性 别 等 信息 。 

4) 数据 实时 (Real-Time) 

对 于 实时 数据 仓库 系统 .数据 同步 等 应 用 都 会 用 到 数据 实时 技术 ,一 个 系统 的 数据 发 
生变 化 后 ,能 即刻 将 变化 的 动作 同步 到 另 一 个 系统 这 就 是 数据 实时 技术 的 主旨 。 关 系 型 
数据 库 .AS400、MQ Series\ADABAS 等 系统 都 有 自身 的 实时 数据 策略 ,如 Oracle 数据 库 
的 实时 技术 可 以 通过 Trigger 或 Log Miner 分 析 归 档 日 志方 式 来 实现 。 

诸如 以 上 ETL ,数据 连通 ,数据 质量 数据 实时 等 技术 ,还 有 数据 联邦 数据 清洗 、 
HA、Grid,Partition、SOA 技术 ,这 些 都 是 保证 数据 集成 平台 的 可 扩展 性 、 安 全 性 、 高 效 
人 性、 简便 性 的 通用 技术 。 


5.3.4 企业 整体 解决 方案 
常见 的 整体 解决 方案 包括 有 企业 数据 集成 业务 咨询 .企业 数据 集成 平台 产品 ,各 厂商 
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数据 集成 底层 软件 共 三 大 块 。 图 5. 14 给 出 了 神州 数码 数据 集成 解决 方案 示意 。 
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5.14 神州 数码 数据 集成 解决 方案 


1. 数据 集成 咨询 

业务 咨询 具体 指 对 企业 各 个 层次 的 数据 对 象 进行 调研 ,给 出 企业 数据 管理 现状 分 析 
报告 ,为 企业 的 数据 管理 进行 数据 标准 定义 ,根据 企业 特点 提出 更 优 的 核心 数据 管理 机 制 
建议 ,设计 适合 企业 长 远 发 展 的 数据 管理 机 构 体系 和 工作 管理 流程 ,并 对 组 织 结构 进行 岗 
位 职能 设置 。 

2. 数据 集成 平台 

数据 集成 平台 是 企业 数据 管理 部 门 的 工作 手段 , 须 依赖 于 一 套 严谨 的 数据 管理 规范 。 
数据 集成 平台 是 以 企业 数据 统一 存储 模型 作为 依托 ,提供 完备 的 数据 存 取 、 清 洗 、 转 换 等 
处 理 功能 ,为 企业 各 业务 部 门 提供 准确 .单一 的 数据 服务 ,并 对 数据 服务 各 环节 进行 审批 、 
监控 ,分 析 和 管理 。 


3. 数据 集成 产品 


提供 基于 客户 需求 的 ,以 应 用 软件 为 核心 的 IT 服务 ,包括 IBM、 Oracle、 Informatica 
等 厂商 的 数据 集成 软件 产品 。 


5.4 机 器 学 习 


机 器 学 习 这 个 词 是 让 人 疑惑 的 ,首先 它 是 英文 名 称 Machine Learning( 简 称 ML) 的 
直译 ,在 计算 界 Machine 一 般 指 计算 机 。 这 个 名 字 使 用 了 拟人 的 手法 ,说 明了 这 门 技术 
是 让 机 器 “学 习 ” 的 技术 。 但 是 计算 机 是 “ 死 " 的 ,怎么 可 能 像 人 类 一 样 “ 学 习 ” 呢 ? 

传统 上 如 果 我 们 想 让 计算 机 工作 ,我 们 给 它 一 串 指 令 , 然 后 它 遵照 这 个 指令 一 步 步 执 
行 下 去 。 有 因 有 果 , 非 常 明确 。 但 这 样 的 方式 在 机 器 学 习 中 行 不 通 。 机 器 学 习 根 本 不 接 
受 你 输入 的 指令 ,相反 , 它 接受 你 输入 的 数据 ! 也 就 是 说 ,机 器 学 习 是 一 种 让 计算 机 利用 
数据 而 不 是 指令 来 进行 各 种 工作 的 方法 。 这 听 起 来 非常 不 可 思议 ,但 从 结果 看 来 却 是 非 
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常 可 行 的 “统计 ?思想 将 在 你 学 习 * 机 器 学 习 " 相 关 理 念 时 无 时 无 刻 不 伴 随 在 旁边 ,相关 
而 不 是 因果 的 概念 将 是 支撑 机 器 学 习 能 够 工作 的 核心 概念 。 你 会 颠覆 对 你 以 前 所 有 程序 
中 建立 的 因果 无 处 不 在 的 根本 理念 。 

5.4.1 机 器 学 习 的 定义 和 例子 

从 广义 上 来 说 ,机 器 学 习 是 一 种 能 够 赋予 机 器 学 习 的 能 力 以 此 让 它 完成 直接 编程 无 
法 完成 的 功能 的 方法 。 但 从 实践 的 意义 上 来 说 ,机 器 学 习 是 一 种 通过 利用 数据 ,训练 出 模 
型 ,然后 使 用 模型 预测 的 一 种 方法 。 

让 我 们 具体 看 一 个 例子 。 

拿 房 子 来 说 ,现在 我 手 里 有 一 栋 房 子 需要 售卖 ,我 应 该 给 它 标 上 多 大 的 价格 ? 房子 的 
面积 是 100 平方 米 ,价格 是 100 万 元 .120 万 元 ,还 是 140 万 元 ? 

很 显然 ,我 希望 获得 房价 与 面积 的 某 种 规律 。 那 么 我 该 如 何 获 得 这 个 规律 ? 用 
报纸 上 的 房价 平均 数据 么 ? 还 是 参考 别人 面积 相似 的 ? 无 论 哪 种 ,似乎 都 并 不 是 太 
靠 谱 。 

我 现在 希望 获得 一 个 合理 的 ,并 且 能 够 最 大 程度 地 反映 面积 与 房价 关系 的 规律 。 于 
是 我 调查 了 周边 一 些 类 似 的 房子 ,获得 了 一 组 数据 。 这 组 数据 中 包含 了 大 大 小 小 房子 的 
面积 与 价格 ,如 果 我 能 从 这 组 数据 中 找 出 面积 与 价格 的 规律 ,那么 我 就 可 以 得 出 房子 的 价 
格 ,如 图 5.15 所 示 。 
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图 5.15 房价 的 例子 


对 规律 的 寻找 很 简单 , 拟 合 出 一 条 直线 ,让 它 * 穿 过 ?所 有 的 点 ,并 且 与 各 个 点 的 距离 
尽 可 能 小 。 

通过 这 条 直线 ,我 获得 了 一 个 能 够 最 佳 反 映 房价 与 面积 关系 的 规律 。 这 条 直线 同时 
也 是 一 个 下 式 所 表明 的 函数 ， 

房价 = 面积 Xa 十 6 

上 述 ab 都 是 直线 的 参数 。 获 得 这 些 参 数 以 后 ,就 可 以 计算 出 房子 的 价格 。 

假设 a==0.75,5==50, 则 房价 ==100X0.75 十 50==125 万 。 这 个 结果 与 我 前 面 所 列 的 
100 万 .120 万 .140 万 都 不 一 样 。 由 于 这 条 直线 综合 考虑 了 大 部 分 的 情况 ,因此 从 “统计 ” 
意义 上 来 说 ,这 是 一 个 最 合理 的 预测 。 

在 求解 过 程 中 透露 出 了 两 个 信息 : 
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(1) 房价 模型 是 根据 拟 合 的 函数 类 型 决定 的 。 

如 果 是 直线 ,那么 拟 合 出 的 就 是 直线 方程 。 如 果 是 其 他 类 型 的 线 , 例 如 抛物 线 ,那么 
拟 合 出 的 就 是 抛物 线 方程 。 机 器 学 习 有 众多 算法 ,一 些 强力 算法 可 以 拟 合 出 复杂 的 非 线 
性 模型 ,用 来 反映 一 些 直 线 所 不 能 表达 的 情况 。 

(2) 数据 越 多 ,模型 就 能 够 考虑 到 越 多 的 情况 ,由 此 对 于 新 情况 的 预测 效果 可 能 就 
越 好 。 

这 是 机 器 学 习 界 “数据 为 王 ” 思 想 的 一 个 体现 。 一 般 来 说 (不 是 绝对 ) ,数据 越 多 ,最 后 
机 器 学 习 生 成 的 模型 预测 的 效果 越 好 。 

通过 拟 合 直线 的 过 程 ,可 以 对 机 器 学 习 过 程 做 一 个 完整 的 回顾 。 首 先 , 需 要 在 计算 机 
中 存储 历史 的 数据 。 接 着 ,将 这 些 数据 通过 机 器 学 习 算法 进行 处 理 ,这 个 过 程 在 机 器 学 习 
中 叫做 “训练 ”, 处 理 的 结果 可 以 被 用 来 对 新 的 数据 进行 预测 ,这 个 结果 一 般 称 之 为 “ 模 
型 ”。 对 新 数据 的 预测 过 程 在 机 器 学 习 中 叫做 “预测 ".“ 训 练 " 与 “预测 是 机 器 学 习 的 两 
个 过 程 ,“ 模 型 " 则 是 过 程 的 中 间 输 出 结果 ,“ 训 练 ”产生 “模型 ",“ 模 型 "指导 “预测 ”。 

让 我 们 把 机 器 学 习 的 过 程 与 人 类 对 历史 经 验 归纳 的 过 程 做 个 比 对 ,如 图 5. 16 所 示 。 
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图 5.16 机 器 学 习 与 人 类 思考 的 类 比 


人 类 在 成 长 .生活 过 程 中 积累 了 很 多 的 历史 与 经 验 。 人 类 定期 地 对 这 些 经 验 进行 “ 归 
纳 ”, 获 得 了 生活 的 “规律 "。 当 人 类 遇 到 未 知 的 问题 或 者 需要 对 未 来 进行 “推测 ”的 时 候 ， 
人 类 使 用 这 些 “ 规 律 ”, 对 未 知 问题 与 未 来 进行 “推测 ”, 从 而 指导 自己 的 生活 和 工作 。 

机 器 学 习 中 的 “训练 "与 “预测 ”过 程 可 以 对 应 到 人 类 的 “归纳 ”和 “推测 ”过 程 。 通 过 这 
样 的 对 应 ,我 们 可 以 发 现 ,机 器 学 习 的 思想 并 不 复杂 ,仅仅 是 对 人 类 在 生活 中 学 习 成 长 的 
一 个 模拟 。 由 于 机 器 学 习 不 是 基于 编程 形成 的 结果 ,因此 它 的 处 理 过 程 不 是 因果 的 逻辑 ， 
而 是 通过 归纳 思想 得 出 的 相关 性 结论 。 

这 也 可 以 联想 到 人 类 为 什么 要 学 习 历史 ,历史 实际 上 是 人 类 过 往 经 验 的 总 结 。 有 和 句 
话说 得 很 好 一 一 “历史 往往 不 一 样 ,但 历史 总 是 惊人 的 相似 *”。 通 过 学 习 历 史 , 我 们 从 历史 
中 归纳 出 人 生 与 国家 的 规律 ,从 而 指导 我 们 的 下 一 步 工作 ,这 是 具有 极 大 价值 的 。 当 前 一 
些 人 忽视 了 历史 的 本 来 价值 ,而 是 把 其 作为 一 种 宣扬 功绩 的 手段 ,这 其 实 是 对 历史 真实 价 
值 的 一 种 误 用 。 
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5.4.2 机 器 学 习 的 范围 


上 面 虽 然 说 明了 机 器 学 习 是 什么 ,但 是 并 没有 给 出 机 器 学 习 的 范围 。 

其 实 , 机 器 学 习 跟 模 式 识别 ,统计 学 习 、 数 据 挖掘 、 计 算 机 视觉 语音 识别 、 自 然 语 言 处 
理 等 领域 有 着 很 紧密 的 联系 。 

从 范围 上 来 说 ,机 器 学 习 跟 模式 识别 ,统计 学 习 、 数 据 挖掘 是 类 似 的 ,同时 ,机 器 学 习 
与 其 他 领域 的 处 理 技术 的 结合 ,形成 了 计算 机 视觉 .语音 识别 .自然 语言 处 理 等 交叉 学 科 。 
因此 ,一 般 说 数据 挖掘 时 ,可 以 等 同 于 说 机 器 学 习 。 on cae 
应 该 是 通用 的 ,不 仅仅 局 限于 结构 化 数据 ,还 有 图 像 .音频 等 

ea ww 用 场景 与 研究 范 
围 ,更 好 地 理解 后 面 的 算法 与 应 用 层次 。 

图 5. 17 是 机 器 学 习 所 涉及 的 一 些 相关 范围 的 学 科 与 研究 领域 。 
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图 5.17 机 器 学 习 与 相关 学 科 


1. 模式 识别 

模式 识别 = 机 器 学 习 。 两 者 的 主要 区 别 在 于 前 者 是 从 工业 界 发 展 起 来 的 概念 ,后 者 
则 主要 源 自 计算 机 学 科 。 在 著名 的 Pattern Recognition And Machine Learning 这 本 书 
中 ,Christopher M. Bishop 在 开头 是 这 样 说 的 :“ 模 式 识 别 源 自 工业 界 ,而 机 器 学 习 来 自 
于 计算 机 学 科 。 不 过 ,它们 中 的 活动 可 以 被 视 为 同一 个 领域 的 两 个 方面 ,同时 在 过 去 的 
10 年 间 ,它们 都 有 了 长 足 的 发 展 。” 

2. 数据 挖掘 

数据 挖掘 二 机 器 学 习 十 数据 库 。 这 几 年 数据 挖掘 的 概念 实在 是 耳熟能详 。 但 凡 说 到 
数据 挖掘 都 会 吹 睦 数据 挖掘 如 何如 何 ,例如 从 数据 中 挖 出 金子 ,以 及 将 废弃 的 数据 转化 为 
价值 等 等 。 但 是 ,我 尽管 可 能 会 挖 出 金子 ,但 我 也 可 能 挖 的 是 “石头 ” 啊 。 这 个 说 法 的 意思 
是 ,数据 挖掘 仅仅 是 一 种 思考 方式 ,告诉 我 们 应 该 尝试 从 数据 中 挖掘 出 知识 ,但 不 是 每 个 
数据 都 能 挖掘 出 金子 的 ,所 以 不 要 神话 它 。 一 个 系统 绝对 不 会 因为 上 了 一 个 数据 挖掘 模 
块 就 变 得 无 所 不 能 ,恰恰 相反 ,一 个 拥有 数据 挖掘 思维 的 人 员 才 是 关键 ,而 且 他 还 必须 对 
数据 有 深刻 的 认识 ,这 样 才 可 能 从 数据 中 导出 模式 指引 业务 的 改善 。 大 部 分 数据 挖掘 中 
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的 算法 是 机 器 学 习 的 算法 在 数据 库 中 的 优化 。 

3. 统计 学 习 

统计 学 习 约 等 于 机 器 学 习 。 统 计 学 习 是 个 与 机 器 学 习 高 度 重 秋 的 学 科 。 因 为 机 器 学 
习 中 的 大 多 数 方法 来 自 统计 学 ,甚至 可 以 认为 ,统计 学 的 发 展 促进 机 器 学 习 的 繁荣 昌盛 。 
例如 著名 的 支持 向 量 机 算法 ,就 是 源 自 统计 学 科 。 但 是 在 某 种 程度 上 两 者 是 有 分 别 的 ,这 
个 分 别 在 于 : 统计 学 习 者 重点 关注 的 是 统计 模型 的 发 展 与 优化 , 偏 数学 ;而 机 器 学 习 者 更 
关注 的 是 能 够 解决 问题 , 偏 实践 ,因此 机 器 学 习 研 究 者 会 重点 研究 学 习 算法 在 计算 机 上 执 
行 的 效率 与 准确 性 的 提升 。 

4. 计算 机 视觉 

计算 机 视觉 = 图 像 处 理 十 机 器 学 习 。 图 像 处 理 技 术 用 于 将 图 像 处 理 为 适合 进入 机 器 
学 习 模 型 中 的 输入 ,机 器 学 习 则 负责 从 图 像 中 识别 出 相关 的 模式 。 计 算 机 视觉 相关 的 应 
用 非常 多 ,例如 百度 识 图 .手写 字符 识别 .车 牌 识别 等 等 应 用 。 这 个 领域 是 应 用 前 景 非常 
火热 的 ,同时 也 是 研究 的 热门 方向 。 随 着 机 器 学 习 的 新 领域 深度 学 习 的 发 展 ,大 大 促进 了 
计算 机 图 像 识别 的 效果 ,因此 未 来 计算 机 视觉 界 的 发 展 前 景 不 可 估量 。 

5. 语音 识别 

语音 识别 = 语音 处 理 十 机 器 学 习 。 语 音 识别 就 是 音频 处 理 技术 与 机 器 学 习 的 结合 。 
语音 识别 技术 一 般 不 会 单独 使 用 ,一 般 会 结合 自然 语言 处 理 的 相关 技术 。 目 前 的 相关 应 
用 有 苹果 的 语音 助手 siri 等 。 

6. 自然 语言 处 理 

自然 语言 处 理 王 文本 处 理 十 机 器 学 习 。 自 然 语 言 处 理 技术 主要 是 让 机 器 理解 人 类 的 
语言 的 一 门 领域 。 在 自然 语言 处 理 技术 中 ,大 量 使 用 了 编译 原理 相关 的 技术 ,例如 词法 分 
析 ,语法 分 析 等 等 , 除 此 之 外 ,在 理解 这 个 层面 , 则 使 用 了 语义 理解 .机 器 学 习 等 技术 。 作 
为 唯一 由 人 类 自身 创造 的 符号 ,自然 语言 处 理 一 直 是 机 器 学 习 界 不 断 研究 的 方向 。 按 昭 
百度 机 器 学 习 专 家 余 凯 的 说 法 “ 听 与 看 ,说 白 了 就 是 阿 猫 和 阿 狗 都 会 的 ,而 只 有 语言 才 是 
人 类 独 有 的 ”。 如 何 利用 机 器 学 习 技术 进行 自然 语言 的 深度 理解 ,一 直 是 工业 和 学 术 界 关 
注 的 焦点 。 

可 以 看 出 机 器 学 习 在 众多 领域 的 外 延 和 应 用 。 机 器 学 习 技 术 的 发 展 促使 了 很 多 智能 
领域 的 进步 ,改善 着 人 们 的 生活 。 


5.4.3 机 器 学 习 的 方法 

通过 上 节 的 介绍 ,我们 了 解 了 机 器 学 习 的 大 致 范围 ,那么 机 器 学 习 里 面 究竟 有 多 少 经 
典 的 算法 呢 ? 本 节 将 简要 介绍 一 下 机 器 学 习 中 的 经 典 代表 方法 。 这 部 分 介绍 的 重点 是 这 
些 方法 内 涵 的 思想 ,数学 与 实践 细节 不 会 在 这 里 讨论 。 

1. 回归 算法 

在 大 部 分 机 器 学 习 课 程 中 ,回归 算法 都 是 介绍 的 第 一 个 算法 。 原 因 有 两 个 : 第 一 , 回 
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归 算 法 比较 简单 ,介绍 它 可 以 让 人 平滑 地 从 统计 学 迁移 到 机 器 学 习 中 ;第 二 ,回归 算法 是 
后 面 若干 强大 算法 的 基石 ,如 果 不 理解 回归 算法 ,无 法 学 习 那 些 强大 的 算法 。 回 归 算 法 有 
两 个 重要 的 子 类 : 即 线性 回归 和 逻辑 回归 。 

一 个 线性 回归 的 例子 就 是 我 们 前 面 说 过 的 房价 求解 问题 。 如 何 拟 合 出 一 条 直线 最 佳 
匹配 我 所 有 的 数据 ? 一 般 使 用 “最 小 二 乘法 ”来 求解 。“ 最 小 二 乘法 ”的 思想 是 这 样 的 , 假 
设 我 们 拟 合 出 的 直线 代表 数据 的 真实 值 ,而 观测 到 的 数据 代表 拥有 误差 的 值 。 为 了 尽 可 
能 减 小 误差 的 影响 ,需要 求解 一 条 直线 使 所 有 误差 的 平方 和 最 小 。 最 小 二 乘法 将 最 优 问 
题 转化 为 求 函数 极 值 问题 。 函 数 极 值 在 数学 上 我 们 一 般 会 采用 求 导 数 为 0 的 方法 。 但 这 
种 做 法 并 不 适合 计算 机 ,可 能 求解 不 出 来 ,也 可 能 计算 量 太 大 。 

计算 机 科学 界 专 门 有 一 个 学 科 叫 “数值 计算 ”, 专 门 用 来 提升 计算 机 进行 各 类 计算 时 
的 准确 性 和 效率 问题 。 例 如 ,著名 的 “梯度 下 降 ” 以 及 “牛顿 法 ”就 是 数值 计算 中 的 经 典 算 
法 ,也 非常 适合 来 处 理 求解 函数 极 值 的 问题 。 梯 度 下 降 法 是 解决 回归 模型 中 最 简单 且 有 
效 的 方法 之 一 。 

人 逻辑 回归 是 一 种 与 线性 回归 非常 类 似 的 算法 ,但 是 ,从 本 质 上 讲 , 线 性 回归 处 理 的 问 
题 类 型 与 逻辑 回归 不 一 致 。 线 性 回归 处 理 的 是 数值 问题 ,也 就 是 最 后 预测 出 的 结果 是 数 
字 , 例 如 房价 。 而 逻辑 回归 属于 分 类 算法 ,也 就 是 说 ,逻辑 回归 预测 结果 是 离散 的 分 类 , 例 
如 判断 这 封 邮件 是 否 是 垃圾 邮件 ,以 及 用 户 是 否 会 点 击 此 广告 链接 等 等 。 

在 实现 方面 ,逻辑 回归 只 是 对 线性 回归 的 计算 结果 加 上 了 一 个 Sigmoid 函数 ,将 数值 
结果 转化 为 了 0 到 1 之 间 的 概率 (Sigmoid 函数 的 图 像 一 般 来 说 并 不 直观 ,你 只 需要 理解 
数值 越 大 ,函数 越 逼 近 1 ;数值 越 小 ,函数 越 逼 近 0) ,接着 我 们 根据 这 个 概率 可 以 做 预测 ， 
例如 概率 大 于 0.5, 则 这 封 邮件 就 是 垃圾 邮件 ,或 者 肿瘤 是 否 是 恶性 的 等 等 。 从 直观 上 来 
说 ,逻辑 回归 是 画 出 了 一 条 分 类 线 ,如 图 5. 18 所 示 。 


目标 :预测 肿瘤 的 性 质 
人 x 
XX 
Xx 输入 :肿瘤 的 体积 ， 
年 龄 O 患者 的 年 龄 
Oo 
O 输出 :良性 或 恶性 


体积 
5.18 逻辑 回归 的 直观 解释 


假设 我 们 有 一 组 肿 瘤 患者 的 数据 ,这 些 患 者 的 肿瘤 中 有 些 是 良性 的 (图 中 的 〇 点 ), 有 
些 是 恶性 的 (图 中 的 X 点 )。 这 里 肿瘤 的 标志 点 ( 〇 点 或 XX 点 ) 可 以 被 称 作 数 据 的 “标签 ”。 
同时 每 个 数据 包括 两 个 “特征 ”: 患者 的 年 龄 与 肿瘤 的 大 小 。 我 们 将 这 两 个 特征 与 标签 映 
射 到 这 个 二 维 空间 上 ,形成 了 图 5. 18 中 的 数据 。 

当 有 一 个 绿色 的 点 时 ,该 判断 这 个 肿瘤 是 恶性 的 还 是 良性 的 呢 ? 根据 标签 点 我 们 训 
练 出 了 一 个 逻辑 回归 模型 ,也 就 是 图 中 的 分 类 线 。 这 时 ,根据 绿 点 出 现在 分 类 线 的 左 侧 ， 
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因此 我 们 判断 它 的 标签 应 该 是 X ,也 就 是 说 ,属于 恶性 肿瘤 。 

逻辑 回归 算法 划 出 的 分 类 线 基 本 都 是 线性 的 (也 有 划 出 非 线性 分 类 线 的 逻辑 回归 ,不 
过 那样 的 模型 在 处 理 数据 量 较 大 的 时 候 效率 会 很 低 ) ,这 意味 着 当 两 类 之 间 的 界线 不 是 线 
性 时 ,逻辑 回归 的 表达 能 力 就 不 足 。 下 面 的 两 个 算法 是 机 器 学 习 界 最 强大 且 重 要 的 算法 ， 
都 可 以 拟 合 出 非 线 性 的 分 类 线 。 

2. 神经 网 络 

神经 网 络 (也 称 为 人 工 神经 网 络 ,ANN) 算 法 是 20 世纪 80 年 代 机 器 学 习 界 非常 流行 
的 算法 ,不 过 在 20 世纪 90 年 代 中 途 衰落 。 现 在 , 乘 着 “深度 学 习 ” 之 势 ,神经 网 络 重 装 归 
来 ,重新 成 为 最 强大 的 机 器 学 习 算法 之 一 。 

神经 网 络 的 诞生 起 源 于 对 大 脑 工作 机 理 的 研究 。 早 期 生物 界 学 者 们 使 用 神经 网 络 来 
模拟 大 脑 。 机 器 学 习 的 学 者 们 使 用 神经 网 络 进行 机 器 学 习 的 实验 ,发 现在 视觉 与 语音 的 
识别 上 效果 都 相当 好 。 在 BP 算法 (加 速 神经 网 络 训练 过 程 的 数值 算法 ?诞生 以 后 ,神经 
网 络 的 发 展 形成 了 一 股 热 潮 。 

具体 说 来 ,神经 网 络 的 学 习 机 理 是 什么 ? 简单 来 说 ,就 是 分 解 与 整合 。 在 著名 的 
Hubel-Wiesel 试验 中 ,学 者 们 研究 猫 的 视觉 分 析 机 理 就 是 这 样 的 ,如 图 5. 19 所 示 。 


Hubel& Weisel 功能 分 层 
全 | 高 级 
超 复杂 单元 
渗 复杂 单元 站 中 级 
简单 单元 人 初级 


5.19 ”Hubel-Wiesel 试验 与 大 脑 视觉 机 理 


比方 说 ,一 个 正方 形 ,分 解 为 四 个 折线 进入 视觉 处 理 的 下 一 层 中 。 四 个 神经 元 分 别 
处 理 一 个 折线 。 每 个 折线 再 继续 被 分 解 为 两 条 直线 ,每 条 直线 再 被 分 解 为 黑白 两 个 
面 。 于 是 ,一 个 复杂 的 图 像 变 成 了 大 量 的 细节 进入 神经 元 ,神经 元 处 理 以 后 再 进行 整 
合 ,最 后 得 出 了 看 到 的 是 正方 形 的 结论 。 这 就 是 大 脑 视觉 识别 的 机 理 , 也 是 神经 网 络 
工作 的 机 理 。 

让 我 们 看 一 个 简单 的 神经 网 络 的 逻辑 架构 。 在 这 个 网 络 中 ,分 成 输入 层 .隐藏 层 和 输 
出 层 。 输 入 层 负 责 接收 信号 ,隐藏 层 负责 对 数据 的 分 解 与 处 理 ,最 后 的 结果 被 整合 到 输出 
层 。 每 层 中 的 一 个 圆 代表 一 个 处 理 单元 ,可 以 认为 是 模拟 了 一 个 神经 元 ,若干 个 处 理 单元 
组 成 了 一 个 层 ,若干 个 层 再 组 成 了 一 个 网 络 ,也 就 是 “神经 网 络 ”。 神 经 网 络 的 逻辑 架构 如 
图 5. 20 所 示 。 

在 神经 网 络 中 ,每 个 处 理 单元 事实 上 就 是 一 个 逻辑 回归 模型 ,逻辑 回归 模型 接收 上 层 
的 输入 ,把 模型 的 预测 结果 作为 输出 传输 到 下 一 个 层次 。 通 过 这 样 的 过 程 , 神 经 网 络 可 以 
完成 非常 复杂 的 非 线性 分 类 。 

图 5. 21 演示 了 神经 网 络 在 图 像 识 别 领域 的 一 个 著名 应 用 ,这 个 程序 叫做 LeNet, 是 
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图 5.20 神经 网 络 的 逻辑 架构 


一 个 基于 多 个 隐 层 构建 的 神经 网 络 。 通 过 LeNet 可 以 识别 多 种 手写 数字 ,并 且 达 到 很 高 
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5.21 LeNet 的 效果 展示 


图 5.21 右 下 方 的 方形 中 显示 的 是 输入 计算 机 的 图 像 ,方形 上 方 的 红色 字样 answer 
后 面 显示 的 是 计算 机 的 输出 。 左 边 的 三 条 竖 直 的 图 像 列 显示 的 是 神经 网 络 中 三 个 隐藏 层 
的 输出 ,可 以 看 出 : 随 着 层次 的 不 断 深入 , 越 深 的 层次 处 理 的 细节 越 低 ,例如 层 3 基本 处 
理 的 都 已 经 是 线 的 细节 了 。 

进入 20 世纪 90 年 代 , 神 经 网 络 的 发 展 进入 了 一 个 瓶颈 期 。 其 主要 原因 是 尽管 有 BP 
算法 的 加 速 ,神经 网 络 的 训练 过 程 仍然 很 困难 。 因 此 20 世纪 90 年 代 后 期 支持 向 量 机 
(SVM) 算 法 取代 了 神经 网 络 的 地 位 。 

3. SVM( 支 持 向 量 机 ) 

支持 向 量 机 算法 是 诞生 于 统计 学 习 界 ,同时 在 机 器 学 习 界 大 放 光 彩 的 经 典 算法 。 

支持 向 量 机 算法 从 某 种 意义 上 来 说 是 逻辑 回归 算法 的 强化 : 通过 给 予 逻辑 回归 算法 
更 严格 的 优化 条 件 , 支 持 向 量 机 算法 可 以 获得 比 逻 辑 回 归 更 好 的 分 类 界线 。 但 是 如 果 没 
有 某 类 函数 技术 , 则 支持 向 量 机 算法 最 多 算是 一 种 更 好 的 线性 分 类 技术 。 

但 是 ,通过 跟 高 斯 “ 核 ” 的 结合 ,支持 向 量 机 可 以 表达 出 非常 复杂 的 分 类 界线 ,从 而 取 
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得 很 好 的 分 类 效果 。“ 核 "事实 上 就 是 一 种 特殊 We 

的 函数 ,最 典型 的 特征 就 是 可 以 将 低 维 的 空间 。 .各 和 

映射 到 高 维 的 空间 ,例如 图 5. 22。 a A 名 
我 们 如 何在 二 维 平面 划分 出 一 个 圆 形 的 分 间 必 允 名 

类 界线 ? 在 二 维 平面 可 能 会 很 困难 ,但 是 通过 党 2 

“ 核 " 可 以 将 二 维 空间 映射 到 三 维 空间 ,然后 使 加 a a 

用 一 个 线性 平面 就 可 以 达成 类 似 效果 。 也 就 是 。 六 四 a 

说 ,二 维 平面 划分 出 的 非 线性 分 类 界线 可 以 等 EM 

价 于 三 维 平面 的 线性 分 类 界线 。 于 是 ,我 们 可 a 


以 通过 在 三 维 空间 中 进行 简单 的 线性 划分 就 可 
以 取得 在 二 维 平面 中 的 非 线 性 划分 效果 。 

支持 向 量 机 是 一 种 偏 数 学 的 机 器 学 习 算 法 (相对 的 ,神经 网 络 则 有 生物 科学 成 分 )。 
在 算法 的 核心 步骤 中 ,有 一 步 证 明 , 即 将 数据 从 低 维 映射 到 高 维 不 会 带 来 最 后 计算 复杂 性 
的 提升 。 于 是 ,通过 支持 向 量 机 算法 , 既 可 以 保持 计算 效率 ,又 可 以 获得 非常 好 的 分 类 效 
果 。 因 此 支持 向 量 机 在 20 世纪 90 年 代 后 期 一 直 占 据 着 机 器 学 习 中 最 核心 的 地 位 ,基本 
取代 了 神经 网 络 算法 。 直 到 现在 神经 网 络 借 着 深度 学 习 重 新 兴起 ,两 者 之 间 才 又 发 生 了 
微妙 的 平衡 转变 。 

4. 聚 类 算法 

前 面 的 算法 中 的 一 个 显著 特征 就 是 训练 数据 中 包含 了 标签 ,训练 出 的 模型 可 以 对 其 
他 未 知 数据 预测 标签 。 在 下 面 的 算法 中 ,训练 数据 都 是 不 含 标签 的 ,而 算法 的 目的 则 是 通 
过 训练 ,推测 出 这 些 数据 的 标签 。 这 类 算法 有 一 个 统称 , 即 无 监督 算法 (前 面 有 标签 的 数 
据 的 算法 则 是 有 监督 算法 ) 。 无 监督 算法 中 最 典型 的 代表 就 是 聚 类 算法 。 

还 是 以 一 个 二 维 的 数据 来 说 明 , 某 一 个 数据 包含 两 个 特征 。 我 希望 通过 聚 类 算法 ,给 
它们 中 不 同 的 种 类 打上 标签 ,我 该 怎么 做 呢 ? 简单 来 说 , 聚 类 算法 就 是 计算 种 群 中 的 距 
离 ,根据 距离 的 远近 将 数据 划分 为 多 个 族群 。 

聚 类 算法 中 最 典型 的 代表 就 是 和 Means 算法 。 

5. 降 维 算法 

降 维 算法 也 是 一 种 无 监督 学 习 算 法 ,其 主要 特征 是 将 数据 从 高 维 降低 到 低 维 层 次 。 
在 这 里 ,维度 其 实 表示 的 是 数据 的 特征 量 的 大 小 ,例如 ,房价 包含 房子 的 长 . 宽 、 面 积 与 房 
间 数 量 四 个 特征 ,也 就 是 维度 为 四 维 的 数据 。 可 以 看 出 ,长 与 宽 事实 上 与 面积 表示 的 信息 
重 闪 了 ,例如 面积 = 长 X 宽 。 通 过 降 维 算法 ,就 可 以 去 除 元 余 信息 ,将 特征 减少 为 面积 与 
房间 数量 两 个 特征 , 即 从 四 维 的 数据 压缩 到 二 维 。 将 数据 从 高 维 降低 到 低 维 , 不 仅 利 于 表 
示 , 同 时 在 计算 上 也 能 带 来 加 速 。 

刚才 说 的 降 维 过 程 中 减少 的 维度 属于 肉眼 可 见 的 层次 ,同时 压缩 也 不 会 带 来 信息 的 
损失 (因为 信息 元 余 了 )。 如 果肉 眼 不 可 见 , 或 者 没有 宛 余 的 特征 , 降 维 算 法 也 能 工作 ,不 
过 这 样 会 带 来 一 些 信息 的 损失 。 但 是 , 降 维 算法 可 以 从 数学 上 证 明 , 从 高 维 压 缩 到 的 低 维 
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中 最 大 程度 地 保留 了 数据 的 信息 。 因 此 ,使 用 降 维 算法 仍然 有 很 多 的 好 处 。 

降 维 算法 的 主要 作用 是 压缩 数据 与 提升 机 器 学 习 其 他 算法 的 效率 。 通 过 降 维 算法 ， 
可 以 将 具有 几 千 个 特征 的 数据 压缩 至 若干 个 特征 。 另 外 , 降 维 算法 的 另 一 个 好 处 是 数据 
的 可 视 化 ,例如 将 五 维 的 数据 压缩 至 二 维 ,然后 可 以 用 二 维 平面 来 可 视 。 降 维 算法 的 主要 
代表 是 PCA 算法 ( 即 主 成 分 分 析 算 法 ) 。 

6. 推荐 算法 

推荐 算法 是 目前 业界 非常 流行 的 一 种 算法 ,在 电 商 界 , 如 亚马逊 、 天 猫 、 京 东 等 得 到 了 
广泛 的 运用 。 推 荐 算法 的 主要 特征 就 是 可 以 自动 向 用 户 推荐 他 们 最 感 兴趣 的 东西 ,从 而 
增加 购买 率 ,提升 效益 。 推 荐 算法 有 两 个 主要 的 类 别 ， 

一 类 是 基于 物品 内 容 的 推荐 ,是 将 与 用 户 购买 的 内 容 近 似 的 物品 推荐 给 用 户 ,前 提 是 
每 个 物品 都 得 有 若干 个 标签 ,因此 才 可 以 找 出 与 用 户 购买 物品 类 似 的 物品 ,这样 推 荐 的 好 
处 是 关联 程度 较 大 ,但 是 由 于 每 个 物品 都 需要 贴标签 ,因此 工作 量 较 大 。 

男 一 类 是 基于 用 户 相 似 度 的 推荐 , 则 是 将 与 目标 用 户 兴趣 相同 的 其 他 用 户 购 买 的 东 
西 推荐 给 目标 用 户 ,例如 小 A 历史 上 买 了 物品 B 和 C, 经 过 算法 分 析 , 发 现 男 一 个 与 小 A 
近似 的 用 户 小 D 购买 了 物品 下 ,于 是 将 物品 E 推荐 给 小 A。 

两 类 推荐 都 有 各 自 的 优 缺 点 ,在 电 商 应 用 中 ,一 般 是 两 类 混合 使 用 。 推 荐 算法 中 最 有 
名 的 算法 就 是 协同 过 滤 算 法 。 

7. 其 他 


除了 以 上 算法 之 外 ,机 器 学 习 界 还 有 其 他 的 如 高 斯 判别 .朴素 贝 叶 斯 .决策 树 等 等 算 
法 。 但 是 上 面 列 的 六 个 算法 是 使 用 最 多 .影响 最 广 ,种 类 最 全 的 典型 。 机 器 学 习 界 的 一 个 
特色 就 是 算法 众多 ,发 展 百花 齐 放 。 

下 面 做 一 个 总 结 ,按照 训练 的 数据 有 无 标签 ,可 以 将 上 面 算 法 分 为 监督 学 习 算法 和 无 
监督 学 习 算法 ,但 推荐 算法 较为 特殊 , 既 不 属于 监督 学 习 , 也 不 属于 非 监 督学 习 , 是 单独 的 
一 类 。 

。 监督 学 习 算法 : 线性 回归 、 逮 辑 回归 ,神经 网 络 .SVM 。 

。 无 监督 学 习 算法 : 聚 类 算法 . 降 维 算法 。 

。 特殊 算法 : 推荐 算法 。 

除了 这 些 算法 以 外 ,有 一 些 算法 的 名 字 在 机 器 学 习 领 域 中 也 经 常 出 现 。 但 它们 本 身 
并 不 算是 一 个 机 器 学 习 算法 ,而 是 为 了 解决 某 个 子 问 题 而 诞生 的 。 你 可 以 将 它 理解 为 以 
上 算法 的 子 算法 ,用 于 大 幅度 提高 训练 过 程 。 其 中 的 代表 有 : 梯度 下 降 法 ,主要 运用 在 线 
型 回归 、 人 逻辑 回归 、 神 经 网 络 、 推 荐 算法 中 ;牛顿 法 ,主要 运用 在 线性 回归 中 ;BP 算法 ,主要 
运用 在 神经 网 络 中 ;SMO 算法 ,主要 运用 在 SVM 中 。 


5.4.4 ”机 器 学 习 的 应 用 一 一 大 数据 


说 完 机 器 学 习 的 方法 ,下 面谈 一 谈 机 器 学 习 的 应 用 。 无 疑 , 在 2010 年 以 前 ,机 器 学 习 
的 应 用 在 某 些 特定 领域 发 挥 了 巨大 的 作用 ,如 车 牌 识别 、 网 络 攻击 防范 、 手 写字 符 识别 等 
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等 。 但 是 ,从 2010 年 以 后 , 随 着 大 数据 概念 的 兴起 ,机 器 学 习 大 量 的 应 用 都 与 大 数据 高 度 
耦合 ,几乎 可 以 认为 大 数据 是 机 器 学 习 应 用 的 最 佳 场景 。 
譬如 ,但 凡 你 能 找到 的 介绍 大 数据 魔力 的 文章 ,都 会 说 大 数据 如 何 准 确 预测 到 了 某 


些 事 。 例 如 经 典 的 Google 利用 大 数据 预测 了 HINI1 在 美国 某 小 镇 的 爆发 ,如 图 5. 23 
所 示 。 





5.23 ”Google 成 功 预 测 HIN1 


百度 预测 2014 年 世界 杯 ,从 淘汰 赛 到 决赛 全 部 预测 正确 ,如 图 5. 24 所 示 。 





图 5.24 百度 世界 杯 成 功 预测 了 所 有 比赛 结果 


这 些 实在 太 神奇 了 ,那么 究竟 是 什么 原因 导致 大 数据 具有 这 些 魔力 的 呢 ? 简单 来 说 ， 
就 是 机 器 学 习 技术 。 正 是 基于 机 器 学 习 技术 的 应 用 ,数据 才能 发 挥 其 魔力 。 

大 数据 的 核心 是 利用 数据 的 价值 ,机 器 学 习 是 利用 数据 价值 的 关键 技术 ,对 于 大 数据 
而 言 ,机 器 学 习 是 不 可 或 缺 的 。 相 反 , 对 于 机 器 学 习 而 言 , 越 多 的 数据 越 可 能 提升 模型 的 
精确 性 ,同时 ,复杂 的 机 器 学 习 算法 的 计算 时 间 也 迫切 需要 分 布 式 计算 与 内 存 计算 这 样 的 
关键 技术 。 因 此 ,机 器 学 习 的 兴盛 也 离 不 开 大 数据 的 帮助 。 大 数据 与 机 器 学 习 两 者 是 互 
相 促 进 、 相 依 相 存 的 关系 。 

机 器 学 习 与 大 数据 紧密 联系 。 但 是 ,必须 清醒 地 认识 到 ,大 数据 并 不 等 同 于 机 器 学 
习 , 同 理 ,机 器 学 习 也 不 等 同 于 大 数据 。 大 数据 中 包含 有 分 布 式 计算 、 内 存 数据 库 .多维 分 
析 等 等 多 种 技术 。 单 从 分 析 方法 来 看 ,大 数据 也 包含 以 下 四 种 分 析 方 法 : 
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(1) 大 数据 ,小 分 析 一 一 即 数据 仓库 领域 的 OLAP 分 析 思 路 ,也 就 是 多 维 分 析 思 想 。 

(2) 大 数据 ,大 分 析 一 一 这 个 代表 的 就 是 数据 挖掘 与 机 器 学 习 分 析 法 。 

(3) 流 式 分 析 一 一 这 个 主要 指 的 是 事件 驱动 架构 。 

(4) 查询 分 析 一 一 经 典 代表 是 NoSQL 数据 库 。 

也 就 是 说 ,机 器 学 习 仅仅 是 大 数据 分 析 中 的 一 种 而 已 。 尽 管 机 器 学 习 的 一 些 结果 具 
有 很 大 的 魔力 ,在 某 种 场合 下 是 大 数据 价值 最 好 的 说 明 。 但 这 并 不 代表 机 器 学 习 是 大 数 
据 下 的 唯一 的 分 析 方 法 。 

机 器 学 习 与 大 数据 的 结合 产生 了 巨大 的 价值 。 基 于 机 器 学 习 技术 的 发 展 , 数 据 能 够 
“预测 ”。 对 人 类 而 言 , 积 累 的 经 验 越 丰富 ,阅历 也 广泛 ,对 未 来 的 判断 越 准确 。 例 如 常 说 
的 “经 验 丰 富 ” 的 人 比 “初出 茅 庐 ” 的 人 更 有 工作 上 的 优势 ,就 在 于 经 验 丰富 的 人 获得 的 规 
律 比 他 人 更 准确 。 而 在 机 器 学 习 领 域 , 根 据 著名 的 一 个 实验 ,有 效 地 证 实 了 机 器 学 习 界 一 
个 理论 : 即 机 器 学 习 模 型 的 数据 越 多 ,机 器 学 习 的 预测 的 效率 就 越 好 。 

通过 这 张 图 可 以 看 出 ,各 种 不 同 算法 在 输入 的 数据 量 达 到 一 定 级 数 后 ,都 有 相近 的 高 
准确 度 。 于 是 诞生 了 机 器 学 习 界 的 名 言 : 成 功 的 机 器 学 习 应 用 不 是 拥有 最 好 的 算法 ,而 
是 拥有 最 多 的 数据 ! 

在 大 数据 的 时 代 , 有 好 多 优势 促使 机 器 学 习 能 够 应 用 更 广泛 。 例 如 , 随 着 物 联网 和 移 
动 设备 的 发 展 ,我 们 拥有 的 数据 越 来 越 多 ,种 类 也 包括 图 片 文本、 视频 等 非 结 构 化 数据 ， 
这 使 得 机 器 学 习 模 型 可 以 获得 越 来 越 多 的 数据 。 同 时 大 数据 技术 中 的 分 布 式 计算 
MapReduce 使 得 机 器 学 习 的 速度 越 来 越 快 ,可 以 更 方便 地 使 用 。 种 种 优势 使 得 在 大 数据 
时 代 , 机 器 学 习 的 优势 可 以 得 到 最 佳 的 发 挥 。 


5.4.5 机 器 学 习 的 子 类 一 一 深度 学 习 


近来 ,机 器 学 习 的 发 展 产 生 了 一 个 新 的 方向 , 即 “ 深 度 学 习 ”。 

深度 学 习 的 理念 非常 简单 ,就 是 传统 的 神经 网 络 发 展 到 了 多 隐藏 层 的 情况 。 

20 世纪 90 年 代 以 后 ,神经 网 络 消 寂 了 一 段 时 间 。 但 是 BP 算法 的 发 明 人 Geoffrey 
Hinton 一 直 没有 放弃 对 神经 网 络 的 研究 。 由 于 神经 网 络 在 隐藏 层 扩大 到 两 个 以 上 ,其 训 
练 速度 就 会 非常 慢 , 因 此 实用 性 一 直 低 于 支持 向 量 机 。2006 年 ,Geoffrey Hinton 在 科学 
杂志 Science 上 发 表 了 一 篇 文章 ,论证 了 两 个 观点 : 

(1) 多 隐 层 的 神经 网 络 具有 优异 的 特征 学 习 能 力 , 学 习 得 到 的 特征 对 数据 有 更 本 质 
的 刻画 ,从 而 有 利于 可 视 化 或 分 类 ; 

(2) 深度 神经 网 络 在 训练 上 的 难度 ,可 以 通过 “ 逐 层 初始 化 "来 有 效 降低 。 

通过 这 样 的 发 现 , 不 仅 解 决 了 神经 网 络 在 计算 上 的 难度 ,同时 也 说 明了 深层 神经 网 络 
在 学 习 上 的 优异 性 。 从 此 ,神经 网 络 重新 成 为 机 器 学 习 界 中 的 主流 强大 学 习 技术 。 同 时 ， 
具有 多 个 隐藏 层 的 神经 网 络 被 称 为 深度 神经 网 络 , 基 于 深度 神经 网 络 的 学 习 研 究 称 为 深 
度 学 习 。 

由 于 深度 学 习 的 重要 性 质 , 在 各 方面 都 取得 了 极 大 的 关注 ,按照 时 间 轴 排序 ,有 以 下 
四 个 标志 性 事件 值得 一 说 : 
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2012 年 6 月 ,《 纽 约 时 报 ) 披 露 了 Google Brain 项 目 ,这 个 项 目 是 由 Andrew Ng 和 
MapReduce 发 明 人 Jeff Dean 共同 主导 ,用 16 000 个 CPU Core 的 并 行 计算 平台 训练 一 
种 称 为 “深层 神经 网 络 ?的 机 器 学 习 模 型 ,在 语音 识别 和 图 像 识别 等 领域 获得 了 巨大 的 成 
功 。Andrew Ng 就 是 文章 开始 所 介绍 的 机 器 学 习 的 大 牛 ( 图 5. 25 中 右 一 立 者 ) 。 


SCience 





> | 
图 5.25 ”Geoffrey Hinton 与 他 的 学 生 在 Science 上 发 表 文 章 


2012 年 11 月 ,微软 在 中 国 天 津 的 一 次 活动 上 公开 演示 了 一 个 全 自动 的 同 声 传译 系 
统 ,讲演 者 用 英文 演讲 ,后 台 的 计算 机 一 气 呵 成 自动 完成 语音 识别 、 英 中 机 器 翻译 以 及 中 
文 语音 合成 ,效果 非常 流畅 ,其 中 支撑 的 关键 技术 是 深度 学 习 。 

2013 年 1 月 ,在 百度 的 年 会 上 ,创始 人 兼 CEO 李彦宏 高 调 宣布 要 成 立 百度 研究 院 ， 
其 中 第 一 个 重点 方向 就 是 深度 学 习 , 并 为 此 而 成 立 深 度 学 习 实 验 室 (IDL), 如 图 5. 26 
所 示 。 


Microsoft 





Bai IDL ems MIT 


Relentiess for Ultimate Intelligence 


5.26 深度 学 习 的 发 展 热潮 


2013 年 4 月 ,《 麻 省 理工 学 院 技术 评论 ) 杂 志 将 深度 学 习 列 为 2013 年 十 大 突破 性 技 
术 (Breakthrough Technology) 之 首 。 

目前 业界 许多 的 图 像 识别 技术 与 语音 识别 技术 的 进步 都 源 于 深度 学 习 的 发 展 , 除 了 
本 文 开 头 所 提 的 Cortana 等 语音 助手 ,还 包括 一 些 图 像 识 别 应 用 ,其 中 典型 的 代表 就 是 百 
度 识 图 功能 ( 见 图 5. 27) 。 

深度 学 习 属于 机 器 学 习 的 子 类 。 基 于 深度 学 习 的 发 展 极 大 地 促进 了 机 器 学 习 的 地 位 
提高 ,更 进一步 地 ,推动 了 业界 对 机 器 学 习 父 类 人 工 智能 梦想 的 再 次 重视 。 
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5.27 百度 识 图 





5.4.6 ”机 器 学 习 的 父 类 一 一 人 工 智能 


人 工 智能 是 机 器 学 习 的 父 类 。 深 度 学 习 则 是 机 器 学 习 的 子 类 。 三 者 的 关系 如 图 5. 28 
所 示 。 

毫 无 疑问 ,人 工 智能 (AD 是 人 类 所 能 想象 的 科技 界 最 
具 突 破 性 的 发 明了 , 某 种 意义 上 来 说 ,人 工 智 能 就 像 游 戏 
《最 终 幻想 》 的 名 字 一 样 ,是 人 类 对 于 科技 界 的 最 终 梦 想 。 
从 20 世纪 50 年 代 提出 人 工 智能 的 理念 以 后 ,科技 界 , 产 业 
界 不 断 在 探索 ,研究 。 这 段 时 间 各 种 小 说 ,电影 都 在 以 各 种 
方式 展现 对 于 人 工 智能 的 想象 。 人 类 可 以 发 明 类 似 于 人 类 
的 机 器 ,这 是 多 么 伟大 的 一 种 理念 ! 但 事实 上 ,自从 20 世 
纪 50 年 代 以 后 ,人 工 智能 的 发 展 就 不 算 顺 利 , 未 有 见 到 足 图 5.28 深度 学 习 、 机 器 学 习 、 
够 震撼 的 科学 技术 的 进步 。 人 工 智能 三 者 关系 

总 结 起 来 ,人 工 智能 的 发 展 经 历 了 如 下 若干 阶段 ,从 早 
期 的 逻辑 推理 ,到 中 期 的 专家 系统 ,这 些 科 研 进步 确实 使 我 们 离 机 器 的 智能 有 点 接近 了 ， 
但 还 有 一 大 上段 距离 。 直 到 机 器 学 习 诞生 以 后 ,人 工 智能 界 感觉 终于 找 对 了 方向 。 基 于 机 
器 学 习 的 图 像 识别 和 语音 识别 在 某 些 垂直 领域 达到 了 跟 人 相 媲 美的 程度 。 机 器 学 习 使 人 
类 第 一 次 如 此 接近 人 工 智能 的 梦想 。 

事实 上 ,如 果 我 们 把 人 工 智能 相关 的 技术 以 及 其 他 业界 的 技术 做 一 个 类 比 ,就 可 以 发 
现 机 器 学 习 在 人 工 智能 中 的 重要 地 位 不 是 没有 理由 的 。 

人 类 区 别 于 其 他 物体 .植物 ,动物 的 最 主要 区 别 , 作 者 认为 是 “智慧 ”>。 而 智慧 的 最 佳 
体现 是 什么 ? 

是 计算 能 力 么 ,应 该 不 是 ,心算 速度 快 的 人 我 们 一 般 称 之 为 天 才 。 

是 反应 能 力 么 ,也 不 是 ,反应 快 的 人 我 们 称 之 为 灵敏 。 

是 记忆 能 力 么 ,也 不 是 ,记忆 好 的 人 我 们 一 般 称 之 为 过 目 不 忘 。 

是 推理 能 力 么 ,这 样 的 人 我 也 许 会 称 他 智力 很 高 ,类 似 “ 福 尔 摩 斯 ”, 但 不 会 称 他 拥有 
智 同 。 
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是 知识 能 力 么 ,这 样 的 人 我 们 称 之 为 博 闻 广 ,也 不 会 称 他 拥有 智慧 。 

想 想 看 我 们 一 般 形 容 谁 有 大 智慧 ? 圣人 ,诸如 庄子 .老子 等 。 智 慧 是 对 生活 的 感悟， 
是 对 人 生 的 积淀 与 思考 ,这 与 我 们 机 器 学 习 的 思想 何其 相似 ? 通过 经 验 获取 规律 ,指导 人 
生 与 未 来 。 没 有 经 验 就 没有 智慧 。 

那么 ,从 计算 机 来 看 ,以 上 的 种 种 能 力 都 有 种 种 技术 去 应 对 。 

例如 ,计算 能 力 我 们 有 分 布 式 计算 ,反应 能 力 我 们 有 事件 驱动 架构 ,检索 能 力 我 们 有 
搜索 引擎 ,知识 存储 能 力 我 们 有 数据 仓库 ,逻辑 推理 能 力 我 们 有 专家 系统 ,但 是 , 唯 有 对 应 
智慧 中 最 显著 特征 的 归纳 与 感悟 能 力 , 只 有 机 器 学 习 与 之 对 应 。 这 也 是 机 器 学 习 能 力 最 
能 表征 智慧 的 根本 原因 ,如 图 5. 29 所 示 。 


计算 : 云 计算 推理 :专家 系统 
灵敏 :事件 驱动 智慧 :机 器 学 习 知识 :数据 仓库 
检索 :搜索 引擎 


图 5.29 机 器 学 习 与 智慧 


让 我 们 再 看 一 下 机 器 人 的 制造 ,在 具有 了 强大 的 计算 ,海量 的 存储 ,快速 的 检索 .迅速 
的 反应 ,优秀 的 逻辑 推理 后 ,如 果 再 配合 上 一 个 强大 的 智慧 大 脑 ,一 个 真正 意义 上 的 人 工 
智能 也 许 就 会 诞生 ,这 也 是 为 什么 说 在 机 器 学 习 快 速 发 展 的 现在 ,人 工 智 能 可 能 不 再 是 梦 
想 的 原因 。 

人 工 智 能 的 发 展 可 能 不 仅 取决 于 机 器 学 习 , 更 取决 于 前 面 所 介绍 的 深度 学 习 ,深度 学 
习 技 术 由 于 深度 模拟 了 人 类 大 脑 的 构成 ,在 视觉 识别 与 语音 识别 上 显著 性 的 突破 了 原 有 
机 器 学 习 技术 的 界限 ,因此 极 有 可 能 是 真正 实现 人 工 智能 梦想 的 关键 技术 。 无 论 是 
Google 大 脑 还 是 百度 大 脑 ,都 是 通过 海量 层次 的 深度 学 习 网 络 所 构成 的 。 也 许 借 助 于 深 
度 学 习 技术 ,在 不 远 的 将 来 ,一 个 具有 人 类 智能 的 计算 机 真 的 有 可 能 实现 。 

机 器 学 习 是 目前 业界 最 为 Amazing 与 火热 的 一 项 技术 ,从 网 上 的 每 一 次 淘宝 的 购买 
东西 ,到 自动 驾驶 汽车 技术 ,以 及 网 络 攻击 抵御 系统 等 等 ,都 有 机 器 学 习 的 因子 在 其 中 , 同 
时 机 器 学 习 也 是 最 有 可 能 使 人 类 完成 AI dream 的 一 项 技术 ,各 种 人 工 智能 目前 的 应 用 ， 
如 微软 小 冰 聊 天 机 器 人 ,到 计算 机 视觉 技术 的 进步 ,都 有 机 器 学 习 努 力 的 成 分 。 作 为 一 名 当 
代 计 算 机 开发 或 管理 人 员 ,最 好 都 应 该 了 解 一 些 机 器 学 习 的 相关 知识 与 概念 ,因为 这 可 以 帮 
你 更 好 地 理解 为 你 带 来 莫大 便利 技术 的 背后 原理 ,以 及 让 你 更 好 地 理解 当代 科技 的 进程 。 


在 R 的 官方 教程 里 是 这 么 给 R 下 注解 的 : 基 S 语言 的 一 个 数据 分 析 和 图 形 显示 的 
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程序 设计 环境 (A system for data analysis and visualization which is built based on S 
language) 。 

1. R 的 源 起 

原先 AT&T 贝尔 实验 室 开发 的 一 种 用 来 进行 数据 探索 ,统计 分 析 、 作 图 的 解释 型 语 
言 一 一 S 语言 ,由 John Chambers 和 同事 开发 ,被 用 作 一 个 统计 分 析 平 台 。S 是 一 种 在 编 
程 环境 操作 的 解释 语言 。S 语法 与 C 的 语法 很 相似 ,但 省 去 了 困难 的 部 分 。S 负责 执行 
内 存 管 理 和 变量 声明 ,举例 而 言 ,这 样 用 户 就 无 须 编 写 或 调试 这 些 方面 了 。 更 低 的 编程 开 
销 使 得 用 户 可 以 在 同一 个 数据 集 上 快速 执行 大 量 分 析 。 

从 一 开始 ,S 就 考虑 到 了 高 级 图 形 的 创建 ,可 向 任何 打开 的 图 形 窗口 添加 功能 。 可 很 
容易 地 突出 兴趣 点 ,查询 它们 的 值 ,使 散 点 图 变 得 更 平滑 ,等 等 。 

最 初 S 语言 的 实现 版 本 主要 是 SPLUS。 后 来 Auckland 大 学 的 Ross Ihaka 和 
Robert Gentleman 及 其 他 志愿 人 员 于 1995 年 在 S 语言 中 创造 了 开源 语言 R, 目 的 是 专注 
于 提供 以 更 好 和 更 人 性 化 的 方式 做 数据 分 析 、 统 计 和 图 形 模型 的 语言 。 

开源 语言 R 与 SPLUS 有 很 多 类 似 之 处 ,两 个 软件 有 一 定 的 兼容 性 。R 是 S 的 一 种 
开源 实现 ,是 一 种 用 于 数据 分 析 和 图 形 的 编程 环境 。 

起 初 R 主要 是 在 学 术 和 研究 使 用 ,但 近来 企业 界 发 现 R 也 很 不 错 。 这 使 得 中 的 了 成 
为 企业 中 使 用 的 全 球 发 展 最 快 的 统计 语言 之 一 。 

R 的 主要 优势 是 它 有 一 个 庞大 的 社区 ,通过 邮件 列表 、 用 户 贡 献 的 文档 和 一 个 非常 
活跃 的 堆栈 溢出 组 提供 支持 。 还 有 CRAN 镜像 ,一 个 用 户 可 以 很 简单 地 创造 的 一 个 包 
含 R 包 的 知识 库 。 这 些 包 有 R 里 面 的 函数 和 数据 ,各 地 的 镜像 都 是 R 网 站 的 备份 文 
件 , 完 全 一 样 ,用 户 可 以 可 以 选择 离 你 最 近 的 镜像 访问 最 新 的 技术 和 功能 ,而 无 须 从 头 
开发 。 

2. R 是 免费 的 

R 是 用 于 统计 分 析 绘图 的 语言 和 操作 环境 。R 是 一 个 自由 、 免 费 、 源 代码 开放 的 软 
件 , 它 是 一 个 用 于 统计 计算 和 统计 制图 的 优秀 工具 。 

R 是 一 套 完整 的 数据 处 理 . 计 算 和 制图 软件 系统 。 其 功能 包括 : 数据 存储 和 处 理 系 
统 ; 数 组 运算 工具 (其 向 量 、 和 矩阵 运算 方面 功能 尤其 强大 ) ;完整 连贯 的 统计 分 析 工具 ;优秀 
的 统计 制图 功能 ;简便 而 强大 的 编程 语言 : 可 操纵 数据 的 输入 和 输入 ,可 实现 分 支 . 循 环 ， 
用 户 可 自 定义 功能 。 

R 是 一 个 免费 的 自由 软件 , 它 有 UNIX、Linux、Mac OS 和 Windows 版 本 ,都 是 可 以 
免费 下 载 和 使 用 的 ,在 那儿 可 以 下 载 到 R 的 安装 程序 .各 种 外 挂 程序 和 文档 。 在 R 的 安 
装 程序 中 只 包含 了 8 个 基础 模块 ,其 他 外 在 模块 可 以 通过 CRAN 获得 。 

3. R 的 特点 


(1) 有 效 的 数据 处 理 和 保存 机 制 。 

(2) 拥有 一 整套 数组 和 甜 阵 的 操作 运算 符 。 

(3) 一 系列 连贯 而 又 完整 的 数据 分 析 中 间 工 具 。 

(4) 图 形 统计 可 以 对 数据 直接 进行 分 析 和 显示 ,可 用 于 多 种 图 形 设备 。 
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(5) 一 种 相当 完善 .简洁 和 高 效 的 程序 设计 语言 。 它 包括 条 件 语句 、 循 环 语句 .用 户 
自 定义 的 递归 函数 以 及 输入 输出 接口 。 

(6) R 语言 是 彻底 面向 对 象 的 统计 编程 语言 。 

(7) R 语言 和 其 他 编程 语言 数据库 之 间 有 很 好 的 接口 。 

(8) R 语 言 是 自由 软件 ,可 以 放心 大 胆 地 使 用 ,但 其 功能 却 不 比 任何 其 他 同类 软 
件 差 ， 

(9) 有 R 语言 具有 丰富 的 网 上 资源 。 

4. 做 数据 分 析 必 须 学 R 的 理由 

R 是 一 种 灵活 的 编程 语言 , 专 为 促进 探索 性 数据 分 析 、 经 典 统计 学 测试 和 高 级 图 形 学 
而 设计 。R 拥有 丰富 的 、 仍 在 不 断 扩大 的 数据 包 库 ,处 于 统计 学 .数据 分 析 和 数据 挖掘 发 
展 的 前 沿 。R 已 证 明 自 己 是 不 断 成 长 的 大 数据 领域 的 一 个 有 用 工具 ,并 且 已 集成 到 多 个 
商用 包 中 ,比如 IBM SPSS® .InfoSphere@ 以 及 Mathematica。 


5.5.2 大 数据 开发 语言 Python 


Python 是 一 种 面向 对 象 .直译 式 的 计算 机 程序 语言 ,具有 近 二 十 年 的 发 展 历史 。 它 
包含 了 一 组 功能 完备 的 标准 库 ,能够 轻松 完成 很 多 常见 的 任务 。 它 的 语法 简单 ,与 其 他 大 
多 数 程序 设计 语言 使 用 大 括号 不 一 样 , 它 使 用 缩 进 来 定义 语句 块 。 

Python 具备 垃圾 回收 功能 ,能 够 自动 管理 内 存 使 用 。 它 经 常 被 当 作 脚本 语言 用 于 处 
理 系统 管理 任务 和 网 络 程序 编写 ,然而 它 也 非常 适合 完成 各 种 高 级 任务 。Python 虚拟 机 
本 身 几 乎 可 以 在 所 有 的 作业 系统 中 运行 。 使 用 一 些 诸如 py2exe、PyPy、PyInstaller 之 类 
的 工具 可 以 将 Python 源 代码 转换 成 可 以 脱离 Python 解释 器 运行 的 程序 。 

Python 的 官方 解释 器 是 CPython ,该 解释 器 用 C 语言 编写 ,是 一 个 由 社区 驱动 的 自 
由 软件 ,目前 由 Python 软件 基金 会 管理 。 

Python 支持 命令 式 程序 设计 、 面 向 对 象 程序 设计 、 函 数 式 编程 、 面 向 侧面 的 程序 设 
计 、 泛 型 编程 多 种 编程 范式 。 


1. 大 数据 全 栈 式 开 发 语言 一 一 Python 
只 要 会 JavaScript 就 可 以 写 出 完整 的 Web 应 用 ,只 要 会 Python ,就 可 以 实现 一 个 完 
整 的 大 数据 处 理 平台 。 表 5. 1 给 出 了 Python 的 应 用 领域 。 
表 5.1 Python 应 用 领域 








领 域 流行 语言 领 域 流行 语言 
云 基础 设施 Python, Java, Go 网 络 爬 虫 Python, PHP, C++ 
DevOps Python, Shell, Ruby, Go 数据 处 理 Python, R, Scala 














在 理论 研究 领域 ,R 语言 也 许 是 最 受 数据 科学 家 欢迎 的 ,但 是 R 语言 的 问题 也 很 明 
显 ,因为 是 统计 学 家 们 创建 了 R 语言 ,所 以 其 语法 略 显 怪异 。 而 且 R 语言 要 想 实现 大 规 
模 分 布 式 系统 ,还 有 很 长 一 段 时 间 的 工程 之 路 要 走 。 所 以 很 多 公司 使 用 R 语言 做 原型 试 
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验 ,算法 确定 之 后 ,再 翻译 成 工程 语言 。 

Python 也 是 数据 科学 家 最 喜欢 的 语言 之 一 。 和 R 语言 不 同 , Python 本 身 就 是 一 门 
工程 性 语言 ,数据 科学 家 用 Python 实现 的 算法 ,可 以 直接 用 在 产品 中 ,这 对 于 大 数据 初 
创 公司 节省 成 本 是 非常 有 帮助 的 。 正 是 因为 数据 科学 家 对 Python 和 R 的 热爱 ,Spark 为 
了 讨好 数据 科学 家 ,对 这 两 种 语言 提供 了 非常 好 的 支持 。 

Python 的 数据 处 理 相关 类 库 非常 多 。 高 性 能 的 科学 计算 类 库 NumPy 和 SciPy, 给 
其 他 高 级 算法 黄 定 了 非常 好 的 基础 ,matploglib 让 Python 画图 变 得 像 Matlab 一 样 简单 。 
Scikit-learn 和 Milk 实现 了 很 多 机 器 学 习 算法 ,基于 这 两 个 库 实 现 的 Pylearn2 ,是 深度 学 
习 领 域 的 重要 成 员 。Theano 利用 GPU 加 速 ,实现 了 高 性 能 数学 符号 计算 和 多 维和 矩阵 计 
算 。 当 然 ,还 有 Pandas ,一 个 在 工程 领域 已 经 广泛 使 用 的 大 数据 处 理 类 库 ,其 DataFrame 
的 设计 借鉴 自 R 语言 ,后 来 又 启发 Spark 项 目 实现 类 似 机 制 。 


2. 为 什么 是 Python 


正 是 因为 应 用 开发 工程 师 、 运 维 工程 师 数 据 科学 家 都 喜欢 Python, 才 使 得 Python 
成 为 大 数据 系统 的 全 栈 式 开发 语言 。 

(1) 对 于 开发 工程 师 而 言 , Python 的 优雅 和 简洁 无 疑 是 最 大 的 吸引 力 ,在 Python 交 
互 式 环境 中 ,执行 import this, 读 一 读 Python 之 禅 ,你 就 明白 Python 为 什么 如 此 吸引 人 。 
Python 社区 一 直 非 常 有 活力 ,和 NodeJS 社区 软件 包 爆 炸 式 增长 不 同 , Python 的 软件 包 
增长 速度 一 直 比 较 稳 定 ,同时 软件 包 的 质量 也 相对 较 高 。 有 很 多 人 诉 病 Python 对 于 空 
格 的 要 求 过 于 苛刻 ,但 正 是 因为 这 个 要 求 , 才 使 得 Python 在 做 大 型 项 目 时 比 其 他 语言 有 
优势 。OpenStack 项 目 总 共 超 过 200 万 行 代码 ,证 明了 这 一 点 。 

(2) 对 于 运 维 工 程 师 而 言 ,Python 的 最 大 优势 在 于 ,几乎 所 有 Linux 发 行 版 都 内 置 
了 Python 解释 器 。Shell 虽然 功能 强大 ,但 毕 竞 语法 不 够 优雅 , 写 比 较 复杂 的 任务 会 很 痛 
苦 。 用 Python 替代 Shell, 做 一 些 复杂 的 任务 ,对 运 维 人 员 来 说 ,是 一 次 解放 。 

(3) 对 于 数据 科学 家 而 言 ,Python 简单 又 不 失 强 大 。 和 C/C++ 相 比 ,不 用 做 很 多 底 
层 工作 ,可 以 快速 进行 模型 验证 ;和 Java 相 比 ,Python 语法 简洁 ,表达 能 力 强 ,同样 的 工 

只 需要 1/3 代码 ;和 Matlab .Octave 相 比 ,Python 的 工程 成 熟 度 更 高 。 不 止 一 个 编程 
大 牛 表达 过 ,Python 是 最 适合 作为 大 学 计算 机 科学 编程 课程 使 用 的 语言 一 -MIT 的 计 
算 机 入 门 课程 就 是 使 用 的 Python 一 一 因为 Python 能 够 让 人 学 到 编程 最 重要 的 东西 一 一 
如 何 解决 问题 。 

顺便 提 一 句 ,微软 参加 2015 年 PyCon ,高 调 宣布 提高 Python 在 Windows 上 的 编程 
体验 ,包括 Visual Studio 支持 Python ,优化 Python 的 C 扩展 在 Windows 上 的 编译 等 等 。 

3. R 和 Python 的 区 别 


1) R 和 Python: 数字 的 比较 

在 网 上 可 以 经 常 看 到 比较 R 和 Python 人 气 的 数字 ,虽然 这 些 数字 往往 就 这 两 种 语 
言 是 如 何在 计算 机 科学 的 整体 生态 系统 不 断 发 展 , 但 是 很 难 并 列 进行 比较 。 主 要 的 原因 
是 ,R 仅 在 数据 科学 的 环境 中 使 用 ,而 Python 作为 一 种 通用 语言 ,被 广泛 应 用 于 许多 领 
域 ,如 网 络 的 发 展 。 这 往往 导致 排名 结果 偏向 于 Python ,而且 从 业者 工资 会 较 低 。 
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2) 如 何 使 用 R 

R 主要 用 于 当 数 据 分 析 任务 需要 独立 的 计算 或 分 析 单个 服务 器 。 这 是 探索 性 的 工 
作 , 因 为 R 有 很 多 包 和 随时 可 用 的 测试 ,可 以 提供 必要 的 工具 ,快速 启动 和 运行 的 数量 庞 
大 几乎 任何 类 型 的 数据 分 析 。R 甚至 可 以 是 一 个 大 数据 解决 方案 的 一 部 分 。 

3) 如 何 使 用 Python 

如 果 你 的 数据 分 析 任 务 需要 使 用 Web 应 用 程序 ,或 代码 的 统计 数据 需要 被 纳入 生产 
数据 库 进行 集成 时 可 以 使 用 Python ,作为 一 个 完全 成 熟 的 编程 语言 , 它 是 实现 算法 一 个 
伟大 的 工具 。 

4) R 和 Python: 数据 科学 行业 的 表现 

如 果 你 看 一 下 最 近 的 民意 调查 ,在 数据 分 析 的 编程 语言 方面 ,R 是 明显 的 赢家 。 

有 越 来 越 多 的 人 从 研发 转向 Python。 此 外 ,有 越 来 越 多 的 公司 使 用 这 两 种 语言 来 进 
行 组 合 。 

如 果 你 打算 从 事 数据 行业 ,你 用 好 学 会 这 两 种 语言 。 招 聘 趋势 显示 这 两 个 技能 的 需 
求 日 益 增 加 ,而 工资 远 高 于 平均 水 平 。 

最 终 你 该 学 习 什 么 呢 : 

由 你 决定 ! 作为 一 个 数据 工作 者 ,你 需要 在 工作 中 选择 最 适合 需要 的 语言 。 在 学 习 
之 前 问 清 楚 这 些 问 题 可 以 帮助 你 : 

你 想 解决 什么 问题 ? 

什么 是 学 习 语言 的 净 成 本 ? 

是 什么 在 你 的 领域 中 常用 的 工具 ? 

什么 是 其 他 可 用 工具 以 及 如 何 做 这 些 涉 及 的 常用 工具 ? 


5.6 大 数据 应 用 案例 之 : 北京 的 人 流 在 哪儿 ”用 大 数据 看 城市 


如 何 读 懂 一 座 城市 ? 人 们 把 生活 构建 在 大 大 小 小 的 城市 中 ,城市 不 仅 为 人 们 提供 工 
作 机 会 ,更 寄托 着 休闲 娱乐 教育 等 诸多 期 待 。 在 这 个 复杂 的 网 络 、 动 态 的 系统 之 中 ,每 
个 人 只 能 看 到 自己 周围 的 生活 ,而 几乎 无 法 了 解 整 个 城市 的 场景 。 尤 其 是 ,如 果 你 生活 在 
一 个 特大 城市 ,比如 常住 人 口 超 过 2300 万 的 北京 ,可 能 穷尽 一 生 都 无 法 彻底 读 懂 这 座 被 
尊称 为 帝都 的 城市 。 

如 今 ,我 们 有 了 “大 数据 "这样 的 信息 时 代 新 利器 ,每 日 都 能 直观 俯视 城市 日 新 月 异 的 
变化 ,不 必 只 从 平面 地 图 和 县 志 中 来 间接 理解 城市 。 

毕竟 ,房子 和 土地 只 是 表象 ,人 的 聚集 才 是 城市 的 本 质 。 就 像 使 用 卫星 地 图 监控 城市 
的 土地 开发 那样 ,我 们 现在 利用 大 数据 ,在 不 同 层次 监测 人 口 聚集 ,更 好 地 回答 “人 在 哪 
儿 ” 的 基本 问题 。 

1. 传统 的 宏观 统计 


以 前 我 们 只 能 看 到 宏观 统计 ,例如 采用 县 级 统计 年 鉴 数 据 库 分 析 全 国 尺度 的 区 县 域 
人 口 密度 (2012 年 ) ,宏观 表现 全 国人 口 分 布 的 京 津 蔓 、 珠 三 角 ,长 三 角 和 成 渝 经济 圈 四 极 
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大 结构 。 

如 果 把 尺度 放 得 更 小 一 些 , 我 们 又 能 看 到 什么 ? 我 们 采用 街道 尺度 的 第 六 次 人 口 普 
查 数据 ,分 析 了 北京 市 域 街道 层面 的 人 口 总 量 和 人 口 密度 分 布 (乡镇 街道 立体 图 中 ,高 度 
和 颜色 深浅 度 分 别 表 示人 口 的 数量 和 密度 ) ,如 图 5. 30 所 示 。 





图 5.30 北京 市 域 人 口 总 量 和 人 口 密度 分 布 


从 人 口 总 量 看 ,昌平 区 的 回龙观 、 东 小 口 镇 (天 通 苑 ) 、 北 七 家 镇 (天 通 苑 以 北 ) ,海淀 区 
的 学 院 路 ,北太平庄 街道 ,以 及 大 兴 区 的 黄村 地 区 ,都 聚集 了 大 量 人 口 ;而 从 人 口 密度 看 ， 
高 密度 区 主要 集中 在 海淀 区 和 西城 区 。 因 至 集 了 大 量 的 优质 教育 资源 ,海淀 区 在 总 量 和 
密度 上 均 呈 现 较 高 的 值 ,所 谓 “ 宇 害 中 心 ”, 果 然 不 虚 。 

用 大 数据 回答 “人 在 哪儿 ”的 问题 。 

上 述 数据 可 以 让 我 们 了 解 城市 的 脉络 ,但 从 中 终究 无 法 看 到 时 间 如 何在 城市 中 流逝 、 
人 们 在 城市 中 如 何 运动 。 由 此 ,我 们 在 这 里 尝试 用 大 数据 去 回答 城市 中 “人 在 哪儿 ”, 把 时 
间 维 度 放 进 城市 空间 分 析 ,重新 理解 城市 中 人 的 活动 。 


2. 北京 : 在 哪儿 上 班 , 在 哪儿 睡觉 


我 们 采用 百度 (百度 热力 图 ) 和 腾讯 ( 宜 出 行 平台 ) 实 时 网 格 人 口 数据 ,选择 工作 日 上 
午 10 点 和 夜间 23 点 ,分 别 代表 上 班 工作 和 下 班 居家 的 活动 状态 ,由 此 得 出 城市 的 职 住 
中 心 。 

就 业 中 心 主要 集中 在 中 关 村 、 知 春 路 ,朝阳 门 -建国 门 - 国 贸 一 带 、 王 府 井 -东单 ,金融 
街 西 单 .西直门 .上 地 ,望京 ,东直门 亮马桥、 朝阳 路 十 里 堡 段 、 惠 新 西 街 南北 口 .五 道口 、 
六 道口 等 (北京 南 站 因 处 于 交通 枢纽 而 聚集 较 多 人 和 群 ) 。 

按照 夜间 23 点 的 人 口 分 布 ( 即 居住 分 布 ) 情 况 ,可 以 发 现 ,居住 中 心 主要 集中 在 中 关 
村 、 回 龙 观 , 西 小 口 \ 六 道口 ,五 道口 ,牡丹 园 、 清 河 \ 知 春 路 .大 钟 寺 、 学 院 南路 、 劲 松 - 潘 家 
园 \ 宋 家 庄 -石榴 庄 、 京 沪 高 速 与 南 六 环 相交 处 ,十 里 堡 、 望 京北 苑 、 立 水 桥 、 天 通 苑 、 芍 药 
居 、 小 营 等 地 。 





街 、. 国 贸 ,西单 .王府 井 等 商业 就 业 中 心 , 到 了 晚上 一 片 寂静 ;第 二 种 空间 , 集 商 业 、 就 业 、 居 

住 于 一 体 的 中 关 村 五 道口 ,六 道口 ,知春 路 等 地 ,无论 白天 黑夜 均 集聚 大 量 人 气 ; 第 三 种 

空间 ,回龙观 .天 通 苑 , 北 苑 、 宋 家 庄 等 主要 以 居住 为 主 的 地 区 ,体现 了 睡 城 的 基本 特征 。 

由 此 ,大 数据 可 以 帮助 我 们 了 解 城市 居民 如 何 使 用 城市 空间 ,进行 实时 动态 监测 。 
奥林匹克 森林 公园 南 园 : 哪里 人 多 ? 哪里 人 少 ? 
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大 数据 不 光 能 识别 宏观 的 职 住 分 布 , 还 可 以 分 析 微观 的 公共 空间 ,如 小 区 公园 .购物 
商场 的 使 用 情况 。 

同样 ,我 们 采用 百度 景区 热 图 数据 , 配 以 实时 人 流动 画作 为 表现 形式 , 便 可 得 出 人 们 
对 微观 空间 的 使 用 情况 。 例 如 ,由 清华 同 衔 规划 设计 研究 院 主持 规划 设计 的 奥林匹克 森 
林 公 园 南 园 ,除了 地 铁 站 森林 公园 南 门 以 外 ,人 流 主要 沿 5km 的 规划 环 道 分 布 ,到 了 晚上 
表现 尤为 明显 ,而 3km 的 规划 环 道上 并 未 形成 明显 的 人 流 集聚 。 同 时 ,在 以 南 门 西门 和 
东 门 为 核心 的 周边 区 域 , 有 部 分 人 流 集聚 , 仰 山 所 在 中 心 区域 则 明显 十 分 稀 玻 。 

如 图 5. 31 所 示 ,对比 工作 日 周 五 和 周末 周 六 的 人 流量 ,可 以 发 现 , 周 五 的 人 流量 主要 
集中 在 外 围 5km 的 环 道 , 周 六 的 人 群 分 布 则 更 为 广泛 ,更 加 深入 到 奥 森 公园 内 部 的 各 处 
景点 。 同 时 对 比 早 间 和 晚间 的 人 流量 , 周 五 早上 8:30 的 人 流量 要 明显 高 于 夜晚 20:30， 
而 在 周 六 早上 和 夜晚 的 人 流量 差异 较 小 。 

















5.31 百度 景区 热 图 数据 


其 实 设计 者 也 无 法 准确 预测 到 这 些 现实 使 用 情况 ,这 不 禁 让 人 思考 ,是 否 3km 的 规划 
环 道 以 及 仰 山 所 在 中 心 区 域 的 设施 配套 不 足 , 导 致使 用 率 低 ? 5km 环 道 , 是 否 因 塑胶 跑道 而 
吸引 了 大 部 分 人 群 ;而 仰 山 所 在 中 心 区 域 因 灯光 昏 暗 , 且 较 少 道路 连通 园 门 口 ,所 以 人 和 群 较 
少 ? 这 可 能 是 设计 师 的 精心 安排 ,但 有 些 可 能 是 玻 忽 。 在 规划 实施 评估 和 未 来 的 规划 改进 
中 ,可 以 有 针对 性 地 进行 优化 。 这 是 利用 大 数据 发 掘 微观 尺度 空间 使 用 模式 的 例子 。 

三 里 屯 太古 里 和 SOHO, 各 自 的 商业 特征 如 何 ? 

三 里 屯 太 古里 与 三 里 屯 SOHO 均 处 三 里 屯 核 心地 段 ,在 地 理 位 置 上 几 无 优 劣 之 分 ， 
仅 隔 一 条 工 体 北 路 。 但 人 们 可 能 会 有 一 种 体会 : SOHO 门 可 罗 和 八 , 太 古里 时 尚 繁华 。 

但 实情 和 观感 一 致 吗 ? 暂 把 7 月 14 日 优 衣 库 事件 对 人 流 的 影响 放 在 一 边 ,通过 图 表 
(数据 来 自 腾讯 宜 出 行 平台 和 百度 景区 热力 图 ,人 口 数值 经 技术 处 理 , 不 完全 代表 人 数 )， 
可 以 发 现 , 无 论 工 作 日 还 是 周末 ,三 里 屯 SOHO 人 流量 均 高 于 太古 里 人 流量 。 当 然 ,可 以 
在 图 里 清楚 读 到 太古 里 在 事件 后 收获 的 人 流 增 量 ,如 图 5. 32 所 示 。 

我 们 只 感受 到 太古 里 川流不息 的 观光 购物 人 潮 , 却 没有 看 到 SOHO 的 高 楼 里 “藏匿 ” 
的 上 班 族 和 住 客 。 

从 用 地 性 质 看 ,太古 里 和 SOHO 均 属 商 业 用 地 ,规划 图 纸 上 标 注 的 是 同一 种 颜色 ,但 
它们 真 的 一 样 吗 ? 从 具体 使 用 功能 上 ,我 们 发 现 ,太古 里 和 SOHO 运营 的 其 实 是 不 同类 
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5.32 太古 里 和 SOHO 总 人 流量 小 时 变化 对 比 


型 的 商业 项 目 。 太 古里 定位 是 综合 休闲 娱乐 区 ,是 以 开放 式 购物 区 为 主 的 商业 综合 体 ;而 
SOHO 则 是 集 商业 、 办 公 、 居 住 为 一 体 的 综合 社区 。 这 两 个 地 块 随时 间 变 化 的 人 流量 曲 
线 ,体现 了 它们 承担 功能 的 差异 。 

在 太古 里 ,周末 人 流量 大 于 工作 日 ;而 日 间 人 流量 随时 间 推 移 缓慢 增多 ,午间 13:00 
左右 增 至 最 高 峰 , 晚 间 22:00 点 之 后 ,人 群 逐渐 散 尽 。 所 以 ,太古 里 是 人 们 休闲 娱乐 的 去 
处 ,夜幕 降临 后 大 家 各 回 各 家 。 而 在 SOHO ,与 太古 里 相反 ,工作 日 人 流量 大 于 周末 ; 
SOHO 达到 人 流量 高 峰 的 时 间 段 ,也 比 太古 里 提前 ,在 早 间 10:00 左右 攀 至 最 高 峰 ,这 正 
是 上 班 族 们 陆续 到 达 单位 打卡 开始 一 天 工作 的 时 间 段 。 

可 见 , 精 细 化 的 实时 网 络 数据 能 精确 刻画 不 同 使 用 模式 地 块 的 人 口 时 空 特征 ,是 我 们 
厘清 复杂 城市 系统 线 团 的 一 根 解锁 线头 。 当 然 ,以 上 分 析 只 是 简单 示意 ,我 们 还 将 使 用 机 
器 学 习 等 技术 对 其 进行 更 深入 的 分 析 和 建 模 , 以 及 实践 应 用 。 

3, 总 结 


基于 上 述 三 个 用 大 数据 进行 的 “人 在 哪儿 ”( 全 北京 职 住 分 布 .奥林匹克 森林 公园 南 园 
人 流 实时 变化 动 图 .三 里 屯 太 古里 和 SOHO 人 口 曲 线 特征 刻画 ) 的 分 析 , 我 们 的 城市 从 二 
维 的 地 图 和 文字 中 * 活 ?了 起 来 。 

我 们 可 以 观察 到 城市 在 全 天 24 小 时 的 不 同 面貌 ,人 流 在 公园 等 公共 空间 如 何 聚 集 ， 
纯 商 业 项 目 和 综合 社区 在 不 同时 间 段 以 及 时 间 点 人 流量 的 差异 。 

如 果 说 ,传统 统计 数据 特征 是 平面 静态 和 粗放 的 ,那么 大 数据 则 让 城市 的 数据 维度 
走向 立体 .动态 和 精确 。 如 果 说 传统 的 统计 数据 主要 服务 于 执政 者 从 上 至 下 的 行政 管理 ， 
那么 大 数据 则 服务 于 自 下 而 上 的 问题 解决 。 

大 城市 人 地 矛盾 的 确 已 十 分 突出 ,政府 政策 制定 时 往往 首先 想到 下 解 人 口 。 但 事实 
上 ,依靠 数据 提升 精细 化 的 规划 和 管理 水 平 后 ,我 们 的 城市 也 可 以 和 东京 等 城市 一 样 ,更 
好 地 满足 不 同人 群 的 基础 设施 和 公共 服务 需求 ,最 大 化 发 挥 有 限 设施 的 服务 水 平 , 提 高 其 
使 用 效率 。 可 以 说 ,大 数据 让 城市 和 生活 更 加 融合 ,让 空间 和 市 民 更 加 贴近 ,最 终 能 让 我 
们 的 城市 生活 更 加 美好 。 


第 5 章 大 数据 计算 模式 与 处 理 系统 


习题 与 思考 题 


一 、 选 择 题 
1. 大 数据 与 三 个 重大 的 思维 转变 有 关 , 这 三 个 转变 是 什么 ? (  )( 多 选 题 ) 
A. 要 分 析 与 某 事 物 相关 的 所 有 数据 ,而 不 是 依靠 分 析 少 量 的 数据 样本 
B. 我 们 乐于 接受 数据 的 纷繁 复杂 ,而 不 再 追求 精确 性 
C. 在 数字 化 时 代 , 数 据 处 理 变 得 更 加 容易 、 更 加 快速 ,人 们 能 够 在 瞬间 处 理 成 千 


上 万 的 数据 
D. 我 们 的 思想 发 生 了 转变 ,不 再 探求 难以 捉摸 的 因果 关系 , 转 而 关注 事物 的 相关 
关系 
2. 下 面 关于 大 数据 的 解说 正确 的 是 (  )。( 多 选 题 ) 
A. 大 数据 是 人 们 在 大 规模 数据 的 基础 上 可 以 做 到 的 事情 ,而 这 些 事情 在 小 规模 
数据 的 基础 上 是 无 法 完成 的 


B. 大 数据 是 人 们 获得 新 的 认 知 创造 新 的 价值 的 源泉 
C. 大 数据 还 是 改变 市 场 、 组 织 机 构 以 及 政府 与 公民 关系 的 方法 
D. 无 效 的 数据 越 来 越 多 
3. 大 数据 的 科学 价值 和 社会 价值 正 是 体现 在 ( 。 ”)。( 多 选 题 ) 
A. 一 方面 ,对 大 数据 的 掌握 程度 可 以 转化 为 经 济 价值 的 来 源 
B. 另 一 方面 ,大 数据 已 经 撼动 了 世界 的 方方面面 ,从 商业 科技 到 医疗 、 政 府 、 教 
育 、 经 济 、 人 文 以 及 社会 的 其 他 各 个 领域 
C. 大 数据 的 价值 不 再 单纯 来 源 于 它 的 基本 用 途 , 而 更 多 源 于 它 的 二 次 利用 
D. 大 数据 时 代 , 很 多 数据 在 收集 的 时 候 并 无 意 用 作 其 他 用 途 , 而 最 终 却 产生 了 很 
多 创新 性 的 用 途 
4. 关于 大 数据 的 概念 正确 的 有 ( ) 。( 多 选 题 ) 
A. 大 数据 时 代 要 求 我 们 重新 审视 精确 性 的 优 劣 
B. 大 数据 不 仅 让 我 们 不 再 期 待 精确 性 ,也 让 我 们 无 法 实现 精确 性 
C. 错误 并 不 是 大 数据 固有 的 特性 ,而 是 一 个 蝇 须 我 们 去 处 理 的 现实 问题 ,并 且 有 
可 能 长 期 存在 
D. 错误 性 是 大 数据 本 身 固有 的 
5. 社会 将 两 个 折 中 的 想法 不 知 不 觉 地 渗入 了 我 们 的 处 事 方法 中 ,我 们 甚至 不 再 把 这 


当成 一 种 折 中 ,而 是 把 它 当 成 了 事物 的 自然 状态 。 这 两 个 折 中 的 方法 是 什么 ? ( 。”)( 多 
选 题 ) 
A. 第 一 个 折 中 是 我 们 默认 自己 不 能 使 用 更 多 的 数据 ,所 以 我 们 就 不 会 去 使 用 更 
多 的 数据 


上 


B. 第 二 个 折 中 出 现在 数据 的 质量 
忍 模糊 和 不 确定 出 现在 一 些 过 去 依赖 于 清晰 和 精确 


C. 第 一 个 折 中 是 我 们 能 够 容 
的 领域 
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D. 第 二 个 折 中 是 能 够 得 到 一 个 事物 更 完整 的 概念 ,我 们 就 能 接受 模糊 和 不 确定 


的 存在 
6. 数据 化 最 早 的 根基 是 什么 ?7 ( 。”)。( 多 选 题 ) 
A. 计量 B. 数字 化 C. 记录 D. 阿拉 伯 数 字 


7. 关于 数据 的 潜在 价值 ,说 法 正确 的 是 (  )。( 多 选 题 ) 
A. 数据 的 真实 价值 就 像 漂 浮 在 海洋 中 的 冰山 ,第 一 眼 只 能 看 到 冰山 一 角 ,而 绝 大 
部 分 则 隐藏 在 表面 之 下 
B. 判断 数据 的 价值 需要 考虑 到 未 来 它 可 能 被 使 用 的 各 种 方式 ,而 非 仅仅 考虑 其 
目前 的 用 途 
C. 在 基本 用 途 完 成 后 ,数据 的 价值 仍然 存在 ,只 是 处 于 休眠 状态 
D. 数据 的 价值 是 其 所 有 可 能 用 途 的 总 和 
8， MapReduce 的 Map 函数 产生 很 多 的 ( js 
A. key B. value 
C. <key,value> D. Hash 
9. Page Rank 是 一 个 函数 , 它 对 Web 中 的 每 个 网 页 赋予 一 个 实数 值 。 它 的 意图 在 于 


网 页 的 Page Rank 越 高 ,那么 它 就 ( a 


A. 相关 性 越 高 。 B. 越 不 重要 C. 相关 性 越 低 。”D. 越 重 要 
10. 大 数据 的 简单 算法 与 小 数据 的 复杂 算法 相 比 ( %; 
A. 更 有 效 B. 相当 C. 不 具备 可 比 性 ”D. 无 效 
“、 问 答题 
. 什么 是 实时 交互 计算 ? 什么 是 流 计 算 ? 
. 请 解释 数据 分 类 与 聚 类 的 概念 。 
. 什么 是 数据 集成 ? 
. 请 详 述 机 器 学 习 的 定义 和 例子 。 
. 请 概述 机 器 学 习 在 大 数据 方面 的 应 用 。 
. 解释 数据 分 析 语 言 R 和 大 数据 开发 语言 Python 的 区 别 。 


中 性 


第 6 章 大 数据 查询 .显现 与 交互 


6.1 数据 的 查询 


6.1.1 常规 数据 库 查询 结构 化 数据 


数据 库 是 为 便于 有 效 地 管理 信息 而 创建 的 ,人 们 希望 数据 库 可 以 随时 提供 所 需要 的 
数据 信息 。 因 此 ,对 用 户 来 说 ,数据 查询 是 数据 库 最 重要 的 功能 。 在 数据 库 中 创建 了 对 象 
并 且 在 基 表 中 添加 了 数据 后 ,用 户 便 可 以 从 数据 库 中 检索 特定 信息 。 

结构 化 查询 语言 (Structured Query Language) 是 一 种 特殊 目的 的 编程 语言 ,是 一 种 
数据 库 查 询 和 程序 设计 语言 ,用 于 存 取 数 据 以 及 查询 .更 新 和 管理 关系 数据 库 系统 ;同时 
也 是 数据 库 脚 本 文件 的 扩展 名 。 

结构 化 查询 语言 是 高 级 的 非 过 程 化 编程 语言 ,允许 用 户 在 高 层 数据 结构 上 工作 。 它 
不 要 求 用 户 指定 对 数据 的 存放 方法 ,也 不 需要 用 户 了 解 具体 的 数据 存放 方式 ,所 以 具有 完 
全 不 同 底层 结构 的 不 同 数据 库 系 统 , 可 以 使 用 相同 的 结构 化 查询 语言 作为 数据 输入 与 管 
理 的 接口 。 结 构 化 查询 语言 语句 可 以 嵌 套 ,这 使 它 具 有 极 大 的 灵活 性 和 强大 的 功能 。 

1986 年 10 月 ,美国 国家 标准 协会 对 SQL 进行 规范 后 ,以 此 作为 关系 式 数据 库 管理 
系统 的 标准 语言 (ANSI X3. 135-1986) ,1987 年 得 到 国际 标准 组 织 的 支持 下 成 为 国际 标 
准 。 不 过 各 种 通行 的 数据 库 系统 在 其 实践 过 程 中 都 对 SQL 规范 做 了 某 些 编 改 和 扩充 。 
所 以 ,实际 上 不 同 数据 库 系统 之 间 的 SQL 不 能 完全 相互 通用 。 

结构 化 查询 语言 包含 6 个 部 分 。 

1. 数据 查询 语言 (Data Query Language,DQL) 

其 语句 也 称 为 “数据 检索 语句 ”, 用 于 从 表 中 获得 数据 ,确定 数据 怎样 在 应 用 程序 给 
出 。 保 留 字 SELECT 是 DQL( 也 是 所 有 SQL) 用 得 最 多 的 动词 ,其 他 DQL 常用 的 保留 字 
有 WHERE.ORDER BY.GROUP BY 和 HAVING。 这 些 DQL 保留 字 常 与 其 他 类 型 的 
SQL 语句 一 起 使 用 。 

2. 数据 操作 语言 (Data Manipulation Language, DML) 

其 语句 包括 动词 INSERT .UPDATE 和 DELETE, 它 们 分 别 用 于 添加 、 修 改 和 删除 
表 中 的 行 ,也 称 为 动作 查询 语言 。 

3. 事务 处 理 语 言 (TPL) 

它 的 语句 能 确保 被 DML 语句 影响 的 表 的 所 有 行 及 时 得 以 更 新 。TPL 语句 包括 
BEGIN TRANSACTION .COMMIT 和 ROLLBACK。 
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4. 数据 控制 语言 (DCL) 

它 的 语句 通过 GRANT 或 REVOKE 获得 许可 ,确定 单个 用 户 和 用 户 组 对 数据 库 对 
象 的 访问 。 某 些 RDBMS 可 用 GRANT 或 REVOKE 控制 对 表单 个 列 的 访问 。 

5. 数据 定义 语言 (DDL) 

其 语句 包括 动词 CREATE 和 DROP。 在 数据 库 中 创建 新 表 或 删除 表 (CREAT 
TABLE 或 DROP TABLE) ;为 表 加 入 索引 等 。DDL 包括 许多 与 人 数据 库 目 录 中 获得 数 
据 有 关 的 保留 字 。 它 也 是 动作 查询 的 一 部 分 。 

6. 指针 控制 语言 (CCL) 

它 的 语句 , 像 DECLARE CURSOR、 FETCH INTO 和 UPDATE WHERE 
CURRENT 用 于 对 一 个 或 多 个 表单 独行 的 操作 。 

数据 查询 是 通过 SELECT 语句 来 完成 的 。SELECT 语句 可 以 从 数据 库 中 按 用 户 要 
求 检索 数据 ,并 将 查询 结果 以 表格 的 形式 返回 。 


6.1.2 大 数据 时 代 的 数据 搜索 


人 类 已 经 到 了 离开 信息 无 法 生活 的 地 步 。 按 照 达 尔 文生 物 进化 论 , 人 类 的 信息 吸收 、 
筛选 和 处 理 的 能 力 应 该 也 会 进化 。 人 们 对 信息 的 需求 并 不 会 退化 ,反而 会 更 加 饥 渴 。 搜 
索引 擎 需要 解决 的 问题 ,不 再 是 帮助 人 们 从 海量 信息 里 面 找到 结果 。 而 是 在 海量 结果 里 
面 找到 唯一 。 快 速 找到 准确 的 答案 比 找到 更 多 的 答案 更 重要 。 

1. 结构 化 数据 对 搜索 的 价值 

结构 化 数据 和 网 页 数据 相 比 , 更 能 满足 第 一 点 : 找 准 唯一 答案 。 网 页 分 析 是 靠 文 本 
匹配 。 结 构 化 数据 的 分 析 即 支持 内 容 提 供 者 的 主动 接 和 ,也 支持 搜索 引擎 的 个 性 化 精准 
分 析 。 这 两 种 方式 都 会 增加 内 容 提 供 者 或 者 搜索 引擎 的 成 本 ,但 是 付出 带 来 的 回报 是 用 
户 快速 得 到 准确 的 唯一 的 答案 。 

2. 大 数据 挖掘 是 搜索 引擎 的 机 会 

经 过 多 年 的 发 展 ,搜索 引擎 在 文本 分 析 、 关 系 发 掘 、 图 谱 构 造 、 用 户 语义 理解 等 方面 已 
有 丰富 的 积累 。 这 些 技术 是 大 数据 挖掘 依赖 的 基本 技术 。 我 们 会 叫 它 挖掘 引擎 。 而 将 控 
掘 和 传统 搜索 结合 起 来 ,通过 挖掘 响应 用 户主 动 的 或 者 被 动 的 搜索 需求 ,或 许 也 可 以 称 为 
“推荐 引擎 ”。 

一 般 来 说 ,搜索 引擎 提供 非 结构 化 文本 的 查询 服务 ,数据 库 引 擎 提供 结构 化 数据 的 查 
询 服务 。 因 此 结构 化 应 用 和 利用 数据 库 实现 的 数据 挖掘 过 程 难以 拓展 到 非 结构 化 数据 
上 。 比 如 搜索 引擎 对 一 个 公开 站 点 进行 索引 后 ,如 果 试 图 利用 结构 化 数据 分 析 方法 来 对 
网 站 的 注册 用 户 行为 进行 分 析 , 通 常 是 不 太 可 能 的 。 比 如 BBS ,博客 和 微 博 的 项 贴 人 分 
析 ,哪些 是 假冒 的 明星 粉丝 ,哪些 人 是 “ 托 儿 ”, 对 于 一 些 商业 化 公司 是 有 用 的 ,特别 是 广告 
公司 。 

目前 缺乏 有 效 的 手段 来 进行 跨越 站 点 的 综合 分 析 , 一 般 是 针对 特定 网 站 进行 设计 分 
析 程序 。 如 果 能 够 用 搜索 引擎 来 提供 结构 化 查询 的 方法 ,很 多 标准 的 结构 化 分 析 程 序 将 


人 


可 以 派 上 用 场 。 

如 果 说 大 数据 是 金 矿 ,拥有 大 数据 的 垂直 网 站 .社交 网 站 .APP、 云 应 用 提供 商 、 物 联 
网 拥有 者 ,政府 组 织 和 企业 即 是 金 矿 矿山 的 老板 。 他 们 可 以 自己 从 金 矿 里 面 掘 金 。 也 可 
以 将 金 矿 卖 给 搜索 引擎 或 者 大 数据 挖掘 公司 来 挖掘 。 搜 索引 擎 为 金 矿 买 单 的 同时 ,必须 
将 自己 从 加 速 信息 流动 的 管道 ,转变 为 会 淘金 的 人 。 

3. 互联 网 信息 的 特点 

1) 面向 显示 与 面向 数据 

从 信息 交换 的 角度 看 ,目前 互联 网 上 的 信息 大 多 以 HTML 文档 形式 存在 ,用 户 与 
服务 器 之 间 信 息 的 传递 主要 依赖 超 文 本 传输 协议 (HTTP)。HTML 文档 中 的 信息 是 
面向 显示 的 ,用 规范 的 HTML 标记 tag 定义 文档 的 元 数据 (如 标题 Title 等 ) ,或 定义 文 
档 的 文本 应 如 何 显示 。 这 些 标记 的 理解 工作 交 由 浏览 器 ,而 信息 的 理解 工作 则 由 用 户 
自己 完成 。 

XML 是 互联 网 上 信息 交换 的 新 标准 , 它 支持 用 户 自 定义 文档 标记 ,用 有 序 的 、 铬 套 
的 元 素 组 织 有 一 定 结构 的 数据 ,是 面向 数据 的 ,程序 可 读 解 这 些 标记 并 依据 标记 的 语 
义 处 理 数据 。 以 XML 文档 为 主体 的 互联 网 将 成 为 新 一 代 以 数据 为 中 心 的 互联 网 计算 
环境 。 

2) 半 结 构 化 与 非 结构 化 

在 互联 网 上 ,数据 嵌 在 HTML 文档 的 文本 中 ,而 数据 的 部 分 组 织 信 息 赃 在 标记 中 。 
从 文档 标记 的 角度 看 ,HTML 显示 超 链 接 的 文档 ;从 数据 的 角度 看 ,HTML 文档 所 蕴含 
的 数据 也 是 半 结 构 化 的 ,这 是 因为 : 

。 数据 没有 严格 的 结构 模式 ; 

。 含有 不 同 格式 的 数据 (如 文本 声音 、 图 像 等 ); 

。 HTML 文本 无 法 区 分 数据 类 型 ; 

。 多 个 异 质数 据 源 中 不 同 的 站 点 给 相同 的 信息 起 不 同 的 名 字 ( 如 “级 别 ”与 “等 

级 "等 )。 

目前 ,有 很 多 研究 正 围绕 半 结 构 化 数据 和 半 结 构 化 文档 (如 SGML 或 XML 文档 ) 的 
存储 模式、 查询 ,优化 等 展开 。 

3) 不 同形 式 数 据 源 的 数据 

除了 保存 在 HTML 文档 中 的 信息 外 ,互联 网 上 还 有 大 量 信息 存储 在 文本 文档 、 传 统 
的 关系 或 对 象 数据 库 中 ,这 些 不 同形 式 的 数据 在 互联 网 上 需要 通过 集成 并 用 HTML 文 
档 显示 ,以 实现 共享 和 交换 。 

如 何 有 选择 地 从 已 有 数据 开始 ,生成 供 浏览 的 页 面 并 建立 站 点 是 互联 网 站 点 管理 要 
考虑 的 问题 。 

4) 静态 与 动态 

互联 网 站 点 上 的 信息 是 随时 间 动 态 变化 的 ,信息 内 容 的 变化 (增删 改 ) 需 要 及 时 地 反 
映 到 互联 网 页 面 中 。 另 一 方面 ,站 点 的 页 面 组 织 结构 可 能 发 生 的 改变 (如 页 面 的 增加 、 删 
除 和 修改 ) 也 要 及 时 反映 到 站 点 页 面 的 目录 层次 结构 中 。 
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由 于 站 点 的 信息 量 大 ,手工 动态 改动 信息 的 工作 量 很 大 , Web 站 点 管理 应 提供 合适 
的 工具 进行 站 点 维护 或 重 构 。 

5) 界面 友好 

Web 站 点 的 信息 主要 面向 一 般 的 非 计算 机 专业 用 户 浏 览 和 查询 ,因此 ,对 界面 的 友 
好 性 , 易 用 性 提出 了 更 高 的 要 求 。 用 户 获取 信息 的 渠道 越 来 越 多 ,方式 越 来 越 灵 活 , 因 此 ， 
提供 给 用 户 的 服务 应 该 适用 于 多 种 形式 的 用 户 界面 。 目 前 ,很 多 搜索 引擎 通过 Form 的 
形式 由 用 户 填写 搜索 要 求 , 这 种 用 户 界面 虽然 比较 易 用 ,但 由 于 引擎 搜索 方式 和 搜索 能 力 
的 限制 ,返回 的 结果 形式 单一 、 内 容重 复 , 并 且 没 有 智能 化 分 析 的 功能 ,不 能 很 好 地 满足 用 
户 的 搜索 要 求 。 

4. XML 成 为 数据 组 织 和 交换 事实 上 的 标准 

由 于 Internet 的 发 展 , 网 上 数据 不 断 激 增 , 对 网 上 信息 的 应 用 需求 也 不 断 提 高 , 原 有 
的 对 文本 文件 的 链接 浏览 和 关键 词 检索 已 无 法 满足 一 些 复杂 的 应 用 需求 。 近 年 来 ,大 量 
的 研究 致力 于 将 数据 库 技术 应 用 于 网 上 数据 的 管理 和 查询 ,使 查询 可 以 在 更 细 的 粒度 上 
进行 ,并 集成 多 个 数据 源 的 数据 。 但 是 ,将 传统 数据 库 技术 直接 应 用 于 网 上 数据 的 最 大 困 
难 在 于 : 网 上 数据 缺乏 统一 的 .固定 的 模式 ,数据 往往 是 不 规则 且 经 常 变动 的 。 因 此 , 半 
结构 化 数据 模型 应 运 而 生 ,其 无 模式 及 自 描 述 的 特点 适用 于 描述 网 上 数据 。 

事实 上 ,日 益 普 及 的 XML 数据 就 是 一 种 自 描述 的 半 结 构 化 数据 , 它 的 出 现 推动 了 互 
联网 在 电子 商务 .电子 数据 交换 和 电子 图 书馆 等 多 方面 的 应 用 。 但 对 于 如 何 有 效 地 存储 
管理 和 查询 这 类 数据 ,目前 却 葛 囊 一 是 ,已 有 的 数据 库 技术 ,如 关系 数据 库 ,面向 对 象 数据 
库 ,都 不 能 完全 适应 于 新 的 应 用 需求 ,而 专用 的 半 结 构 化 数据 管理 系统 目前 仍 处 于 初步 实 
验 阶段 。 

可 以 预言 ,XML 将 成 为 数据 组 织 和 交换 事实 上 的 标准 ,大 量 的 XML 数据 将 很 快 出 
现在 Web 上 。 实 质 上 ,XML 为 Web 的 数据 管理 提供 了 新 的 数据 模型 ,很 多 成 熟 的 数据 
库 技术 将 进入 Web 信息 处 理 领 域 ,将 其 变 为 一 个 巨大 的 数据 库 。XML 是 朝 这 个 方向 迈 
出 的 第 一 步 。 这 种 变化 给 数据 库 研 究 界 带 来 了 巨大 的 机 会 ,使 将 数据 库 技 术 和 研究 扩展 
到 对 Web 数据 的 管理 成 为 可 能 。 目 前 ,对 XML 数据 的 存储 和 查询 的 研究 方兴未艾。 
XML 数据 模型 与 半 结 构 化 数据 模型 有 着 很 多 的 相似 性 ,可 以 说 ,XML 是 互联 网 上 的 半 
结构 化 数据 , 它 既 为 半 结 构 化 数据 的 研究 展示 了 广阔 的 应 用 前 景 , 同 时 也 推动 了 半 结 构 数 
据 研究 的 发 展 。 


6.1.3 数据 库 与 信息 检索 技术 的 比较 


互联 网 目前 还 只 是 一 个 巨大 的 分 布 的 信息 检索 系统 ,大 多 数 搜索 引擎 基于 信息 检索 
技术 。 数据库 技术 与 信息 检索 技术 有 很 多 不 同 , 详 见 表 6. 1。 

二 者 最 重要 的 一 个 区 别 是 数据 库 的 数据 结构 性 更 强 , 比 信息 检索 的 数据 包含 更 多 的 
语义 。 在 一 定 意义 上 ,信息 检索 技术 更 适合 于 处 理 无 结构 数据 ,数据 库 则 是 管理 结构 数据 
的 最 好 途径 。 在 本 质 上 ,信息 检索 使 用 近似 方法 为 用 户 的 浏览 需求 查找 相关 信息 。 其 中 
“近似 ”的 含义 包括 近似 的 查询 条 件 说 明 、 近 似 匹 配 、 近 似 结果 。 


表 6.1 数据 库 技术 与 信息 检索 技术 比较 


第 6 章 ， 大 数据 查询 .显现 与 交互 。 站 89 






































比较 项 目 数 据 库 信息 检索 (IR) 
数据 有 结构 无 结构 

模型 有 确定 性 的 模型 基于 概率 

查询 语言 人 工 的 (如 SQL 等 ) 自然 的 

查询 规范 完全 的 不 完全 的 

匹配 精确 匹配 部 分 匹配 、 最 佳 匹 配 
所 需 条 目 基于 匹配 基于 相关 

出 错 报告 敏感 的 不 敏感 

推理 演绎 归纳 

类 属 单 向 度 (Monothetic) 多 向 度 (Polythetic) 
数据 更 新 完全 支持 不 支持 

事务 支持 不 支持 

使 用 面向 应 用 面向 人 








数据 库 中 简单 演绎 推理 的 形式 为 : 如 果 aRb 并 且 5Re, 那 么 aRc。 在 信息 检索 技术 中 
则 经 常 使 用 归纳 推理 ,关系 只 由 确定 或 不 确定 的 程度 表达 ,因此 ,推理 的 可 信 度 是 个 变量 。 
这 个 区 别 导致 数据 库 被 描述 为 确定 性 的 ,而 信息 检索 是 概率 性 的 。 在 信息 检索 中 ,经 常用 
贝 叶 斯 定理 进行 推导 。 

另外 一 个 区 别 以 类 属 为 依据 。 数 据 库 类 属 关系 中 的 类 由 组 成 一 个 类 的 所 有 必要 和 充 
分 的 处 理 属 性 定义 ;在 信息 检索 中 ,类 的 一 个 个 体 将 只 拥有 该 类 所 有 个 体 的 所 有 属性 的 一 
部 分 ,类 属 没有 充分 或 必要 的 属性 。 

数据 库 的 查询 语言 通常 是 人 工 语言 ,有 严格 的 语法 和 词汇 表 ; 在 信息 检索 中 ,经 常 使 
用 的 是 自然 语言 。 

随 着 电子 数据 数量 的 激增 和 Web 规模 的 快速 增长 ,使 用 传统 的 信息 检索 方法 在 这 样 
一 个 无 限 的 信息 海洋 中 要 准确 、 快 速 定位 所 需 信息 时 , 越 来 越 显得 力不从心 ,在 未 来 的 
Web 发 展 中 ,如 何 提高 信息 检索 的 准确 性 和 效率 成 为 关键 问题 。 另 一 方面 ,目前 出 现 了 
超越 浏览 方式 而 使 信息 面向 应 用 访问 的 迫切 需求 ,从 而 为 各 种 服务 提供 自主 性 、 互 操作 性 
和 Web 意识 。 无 结构 的 HTML 文档 及 其 相应 的 信息 检索 技术 将 不 再 适应 下 一 代 更 复杂 
的 Web 应 用 。 

因此 ,未 来 的 Web 信息 将 由 更 近似 于 数据 库 的 方式 进行 管理 ,而 不 是 目前 采用 的 单 
一 的 信息 检索 方式 。Web 资源 需要 以 有 结构 的 方式 进行 组 织 和 访问 。 


6.1.4 数据库 技术 面临 的 Web 数据 管理 问题 


Web 目前 的 状况 离 Web 上 有 效 信息 服务 与 信息 管理 的 实现 还 有 差距 ,这 正 为 数据 
库 技术 向 Web 领域 发 展 提供 了 空间 。 新 环境 中 的 数据 库 技术 研究 内 容 包括 半 结 构 化 数 


大 数据 技术 及 应 用 教程 


据 模型 及 其 理论 .数据 缓存 与 复制 .事务 管理 ,数据 安全 等 , 它 与 Web 上 已 有 的 成 熟 技术 
(如 信息 检索 技术 ) 相 结合 ,可 以 用 来 解决 Web 上 数据 管理 ,动态 维护 等 关键 问题 。 

1. 半 结 构 查 询 语言 与 模式 抽取 

半 结 构 化 数据 的 研究 起 源 于 异 质 的 数据 源 之 问 数据 交换 和 集成 ,另外 ,一 些 数据 源 
(如 Web) 的 数据 并 非 像 传统 的 结构 化 数据 (如 关系 数据 ) 那 样 有 严格 的 数据 格式 和 数据 
类 型 。 半 结构 化 数据 的 特点 是 没有 事先 给 定 的 数据 模式 ,或 者 数据 模式 对 数据 的 约束 不 
强 ,模式 的 规模 比较 大 (有 时 甚至 可 以 大 过 数据 ) ,模式 是 经 常 变 动 的 ,数据 未 赋予 严格 的 
类 型 。 很 多 研究 者 研究 了 半 结 构 化 数据 的 存储 、 模 式 抽 取 、 查 询 和 用 户 界面 等 问题 ,并 出 
现 一 些 半 结构 化 数据 的 原型 系统 ,如 Lore。Lorel、UnQL 是 比较 典型 的 半 结 构 化 数据 查 
询 语言 。 

对 结构 化 文档 (如 SGML .XML 或 HTML) 查 询 的 研究 ,更 多 地 考虑 了 对 链接 路 径 的 
查询 能 力 ,文字 检索 和 字符 串 匹 配 能 力 , 并 考虑 了 结果 的 重 构 能 力 。 

2，Web 站 点 建设 与 重 构 

Web 站 点 建设 是 从 已 有 数据 开始 ,创建 用 户 可 浏览 的 Web 站 点 和 Web 站 点 视图 。 
Web 站 点 重 构 是 在 已 有 站 点 的 基础 上 ,基于 Web 动态 变化 和 安全 的 考虑 , 重 构 站 点 或 
Web 站 点 的 不 同 视图 。Web 站 点 建设 与 重 构 既 包括 前 面 讨论 的 两 个 方面 的 问题 ,还 包含 
其 他 方面 的 技术 (如 网 络 实现 等 ), 从 数据 的 角度 看 ,Web 创建 者 应 考虑 的 问题 有 : 

。 选择 用 于 站 点 显示 的 数据 。 
确定 Web 站 点 的 结构 (页 面 的 内 容 和 页 面 之 间 的 链接 ) 和 约束 。 
。 确定 页 面 如 何 显 示 给 用 户 。 
信息 集成 技术 是 Web 站 点 建设 的 基础 ,描述 性 的 Web 查询 语言 可 以 成 为 用 于 
Web 站 点 重 构 的 方便 和 功能 强大 的 工具 。 

3. 半 结 构 化 数据 的 存储 研究 

数据 的 存储 研究 包括 两 个 问题 : 半 结 构 化 数据 或 XML 数据 的 存储 以 及 索引 的 存储 。 
数据 的 存储 有 以 下 方式 。 

1) 文本 文件 

文本 文件 是 最 简单 .最 直接 地 存储 XML 数据 的 方式 。 它 与 数据 被 理解 的 方式 一 致 ， 
自然 地 反映 了 对 象 之 间 的 嵌 套 关系 , 且 同 一 个 对 象 的 数据 集中 存储 。 缺 点 是 存储 粒度 大 ， 
当 数 据 量 大 时 不 利于 实现 网 络 通信 和 数据 共享 。 

2) 关系 数据 库 

关系 数据 库存 储 半 结 构 化 数据 或 XML 数据 。 可 以 利用 数据 库 现 有 的 存储 管理 、 并 
发 控制 ,恢复 .版 本 机 制 等 技术 有 效 地 管理 数据 。 该 方式 的 欠缺 是 一 个 简单 的 查询 路 径 可 
能 要 通过 多 重 链接 实现 ,影响 了 查询 的 效率 。 半 结构 化 数据 的 缺乏 模式 和 数据 类 型 的 特 
性 也 使 关系 数据 库 的 一 些 优化 存储 策略 (如 聚集 存储 等 ) 不 能 应 用 。 

3) 面向 对 象 数据 库 

很 多 商业 的 XML 服务 器 采用 这 种 方式 。 它 利用 DTD 给 出 的 类 型 信息 构造 类 层次 
结构 ,正则 表达 式 的 符号 可 由 基于 对 象 数据 模型 的 类 型 表达 (如 用 list 数据 类 型 表达 ) ,也 
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可 以 通过 创建 新 类 实现 (如 “|” 符 号 可 用 union 类 型 的 类 实现 )。 该 方式 的 数据 模型 更 接 
近 半 结构 化 数据 模型 ,并 能 更 好 地 处 理 檬 套 的 集合 和 顺序 ,因此 ,其 数据 存储 和 查询 处 理 
可 以 用 来 提高 XML 或 半 结 构 化 数据 处 理 的 效率 。 

4. 分 布 计算 的 研究 

在 信息 分 布 的 环境 中 ,特别 是 在 Web 中 ,可 能 有 两 种 情况 出 现 : 

1) 事先 已 知 模式 信息 

知道 数据 如 何 分 布 , 则 可 利用 已 知 信息 采取 类 似 于 分 布 关 系数 据 库 的 半 链 接 或 半 链 
接 规 约 的 技术 进行 查询 处 理 。 

2) 模式 信息 事先 未 知 

需 采 用 新 技术 处 理 。 这 时 处 理 某 一 查询 路 径 表 达 式 比较 好 的 解决 办 法 是 在 每 一 个 参 
与 站 点 上 建立 一 个 对 应 于 该 路 径 表 达 式 的 自动 机 ,各 自 将 计算 结果 传 到 中 心 站 点 ,然后 计 
算出 最 终 查 询 结果 。 这 种 方法 可 以 减少 不 同 参与 站 点 间 的 通信 次 数 。 

5，Web 异 构 数据 集成 


Web 信息 集成 系统 的 目标 是 支持 对 Web 上 多 个 数据 源 的 查询 。 它 除 与 异 构 数据 库 
集成 系统 相同 外 ,还 要 处 理 大 量 的 、 数 日 递增 的 Web 数据 源 ,描述 Web 数据 源 特征 的 元 
数据 很 少 ,各 数据 源 有 很 强 的 自治 性 。 

建设 Web 信息 集成 系统 有 两 种 方法 : 数据 仓库 方法 和 虚拟 方法 。 前 者 是 将 各 数据 
源 的 数据 装载 到 数据 仓库 中 ,用 户 的 查询 基于 数据 仓库 的 数据 ;后 一 种 方法 基于 一 个 “中 
间 模 式 ”(Mediated Schema) ,数据 仍 保存 在 局 部 数据 源 中 ,通过 各 数据 源 的 “包装 程序 ” 
(Wrappers) 将 数据 虚拟 成 中 间 模 式 , 用 户 的 查询 基于 中 间 模 式 ,不 必 知 道 每 个 专门 的 数 
据 源 的 特点 ,查询 执行 引擎 直接 与 Wrappers 打交道 ,将 基于 中 间 模 式 的 查询 转换 为 基于 
各 局 部 数据 源 的 模式 。 虚 拟 方法 更 适应 于 数据 源 数目 多 、 各 局 部 数据 源 的 自治 性 很 高 且 
局 部 数据 经 常 变化 的 Web 环境 。 


6. Web 应 用 系统 体系 结构 


Web 是 一 个 分 布 的 异 质 的 计算 环境 ,与 这 一 环境 相 适应 ,其 应 用 系统 具有 多 层 体系 
结构 , 即 在 客户 /服务 器 两 层 结构 之 间 具 有 若干 个 中 间 层 。 中 间 层 的 作用 是 集成 、 转 换 多 
个 数据 源 的 数据 。 中 间 层 有 两 种 实现 方式 。 

1) 数据 仓库 

各 数据 源 的 数据 被 导入 数据 仓库 中 ,实现 数据 集成 并 支持 产生 式 系统 的 决策 支持 查 
询 。 这 样 的 系统 适合 规模 不 很 大 但 要 求 查询 效率 高 , 且 源 数据 更 新 不 多 的 情况 。 关 键 技 
术 是 有 效 的 数据 加 载 和 增 量 更 新 维护 。 

2) 中 介 (Mediator) 系 统 

数据 并 不 实际 存储 在 中 间 层 ,客户 端 发 来 的 查询 由 中 介 系 统 转换 为 各 数据 源 的 查询 。 
这 种 方法 可 适用 于 规模 很 大 但 对 查询 效率 要 求 不 高 并 且 源 数据 经 常 更 新 的 系统 。 关 键 技 
术 是 查询 重 写 。 
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6.2 网 络 数据 索引 与 查询 技术 


6.2.1 搜索 引擎 技术 概述 


网 络 数据 查询 目前 使 用 的 最 多 的 是 搜索 引擎 。 搜 索引 擎 (search engine) 是 指 根据 一 
定 的 策略 .运用 特定 的 计算 机 程序 搜集 互联 网 上 的 信息 ,在 对 信息 进行 组 织 和 处 理 后 ,并 
将 处 理 后 的 信息 显示 给 用 户 ,是 为 用 户 提供 检索 服务 的 系统 。 

1. 搜索 引擎 的 发 展 

1990 年 ,加 拿 大 麦 吉尔 大 学 (University of McGill) 计 算 机 学 院 的 师 生 想到 了 开发 一 
个 可 以 用 文件 名 查找 文件 的 系统 ,开发 出 Archie。 当 时 ,万 维 网 (World Wide Web) 还 没 
有 出 现 , 人 们 通过 FTP 来 共享 交流 资源 。Archie 能 定期 搜集 并 分 析 FTP 服务 器 上 的 文 
件 名 信息 ,提供 查找 分 别 在 各 个 FTP 主机 中 的 文件 。 用 户 必 须 输 入 精确 的 文件 名 进行 搜 
索 ,Archie 告诉 用 户 哪 个 FTP 服务 器 能 下 载 该 文件 。 

虽然 Archie 搜集 的 信息 资源 不 是 网 页 (HTML 文件 ) ,但 和 搜索 引擎 的 基本 工作 方 
式 是 一 样 的 : 自动 搜集 信息 资源 、 建 立 索引 、 提 供 检索 服务 。 所 以 ,Archie 被 公认 为 现代 
搜索 引擎 的 鼻祖 。 由 于 Archie 深 受 欢迎 , 受 其 启发 ,1993 年 又 开发 了 一 个 Gopher 搜索 
工具 。 

2. 搜索 引擎 分 类 

1) 全 文 索引 

全 文 搜索 引擎 是 名 副 其 实 的 搜索 引擎 ,国外 代表 有 Google, 国 内 则 有 著名 的 百度 搜 
索 。 它 们 从 互联 网 提取 各 个 网 站 的 信息 ,建立 起 数据 库 ,并 能 检索 与 用 户 查 询 条 件 相 匹配 
的 记录 , 按 一 定 的 排列 顺序 返回 结果 。 

根据 搜索 结果 来 源 的 不 同 , 全文 搜索 引擎 可 分 为 两 类 ,一 类 拥有 自己 的 检索 程序 
(Indexer) ,俗称 " 疏 虫 "CSpider) 程 序 或 “机 器 人 ”(Robot) 程 序 , 能 自 建 网 页 数据 库 ,搜索 
结果 直接 从 自身 的 数据 库 中 调用 ,上 面 提 到 的 Google 和 百度 就 属于 此 类 ; 另 一 类 则 是 租 
用 其 他 搜索 引擎 的 数据 库 ,并 按 自 定 的 格式 排列 搜索 结果 ,如 Lycos 搜索 引擎 。 

2) 目录 索引 

目录 索引 虽然 有 搜索 功能 ,但 严格 意义 上 不 能 称 为 真正 的 搜索 引擎 ,只 是 按 目录 分 类 
的 网 站 链接 列表 而 已 。 用 户 完全 可 以 按照 分 类 目录 找到 所 需要 的 信息 ,不 依靠 关键 词 
(Keywords) 进 行 查询 。 目 录 索 引 中 最 具 代表 性 的 有 Yahoo、 新 浪 分 类 目录 搜索 。 

3) 元 搜索 引擎 

元 搜索 引擎 (META Search Engine) 接 受用 户 查询 请 求 后 ,同时 在 多 个 搜索 引擎 上 搜 
索 , 并 将 结果 返回 给 用 户 。 著 名 的 元 搜索 引擎 有 InfoSpace .Dogpile Vivisimo 等 。 


6.2.2 Web 搜索 引 警 工作 原 理 
Web 搜索 引擎 的 原理 通常 为 : 首先 是 用 爬虫 (Spider) 进 行 全 网 搜索 ,自动 抓 取 网 页 ; 
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然后 将 抓 取 的 网 页 进行 索引 ,同时 也 会 记录 与 检索 有 关 的 属性 ,中 文 搜索 引擎 中 还 需要 首 
先 对 中 文 进行 分 词 ;最 后 ,接受 用 户 查询 请 求 , 检 索索 引文 件 并 按照 各 种 参数 进行 复杂 的 
计算 ,产生 结果 并 返回 给 用 户 。 基 于 上 面 的 原理 ,下 面 将 简要 介绍 Web 搜索 引擎 实现 。 


1. Web 搜索 引擎 的 组 成 
搜索 引擎 一 般 由 搜索 器 .索引 器 、 检 索 器 和 用 户 接口 四 个 部 分 组 成 ,如 图 6.1 所 示 。 
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6.1 搜索 引擎 组 成 


(1) 搜索 器 : 其 功能 是 在 互联 网 中 漫游 ,发 现 和 搜集 信息 ; 

(2) 索引 器 : 其 功能 是 理解 搜索 器 所 搜索 到 的 信息 ,从 中 抽取 出 索引 项 ,用 于 表示 文 
档 以 及 生成 文档 库 的 索引 表 ; 

(3) 检索 器 : 其 功能 是 根据 用 户 的 查询 在 索引 库 中 快速 检索 文档 ,进行 相关 度 评价 ， 
对 将 要 输出 的 结果 排序 ,并 能 按 用 户 的 查询 需求 合理 反馈 信息 ; 

(4) 用 户 接口 : 其 作用 是 接纳 用 户 查询 .显示 查询 结果 提供 个 性 化 查询 项 。 

2，Web 搜索 引擎 的 工作 模式 


(1) 利用 网 络 爬 虫 获取 网 络 资源 。 

这 是 一 种 半自动 化 的 资源 (由 于 此 时 尚未 对 资源 进行 分 析 和 理解 ,不 能 成 为 信息 而 仅 
是 资源 ) 获取 方式 。 所 谓 半 自动 化 ,是 指 搜索 器 需要 人 工 指定 起 始 网 络 资源 URL 
(Uniform Resource Locator) ,然后 获取 该 URL 所 指向 的 网 络 资源 ,并 分 析 该 资源 所 指向 
的 其 他 资源 并 获取 。 

网 络 怜 虫 访问 资源 的 过 程 ,是 对 互联 网 上 信息 遍历 的 过 程 。 在 实际 的 爬虫 程序 中 ,为 
了 保证 信息 收集 的 全 面 性 及 时 性 ,还 有 多 个 疏 虫 程序 的 分 工 和 合作 问题 ,往往 有 复杂 的 
控制 机 制 。 如 Google 在 利用 仆 虫 程序 获取 网 络 资源 时 ,是 由 一 个 任务 管理 程序 负责 任务 
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的 分 配 和 结果 的 处 理 , 多 个 分 布 式 的 爬虫 程序 从 管理 程序 活动 任务 ,然后 将 获取 的 资源 作 
为 结果 返回 ,并 从 新 获得 任务 。 
其 基本 流程 如 图 6. 2 所 示 。 
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图 6.2 基本 搜索 器 流程 图 











(2) 利用 索引 器 从 搜索 器 获取 的 资源 中 抽取 信息 ,并 建立 利于 检索 的 索引 表 。 

当 用 网 络 仆 虫 获取 资源 后 后 ,需要 对 这 些 进行 加 工 过 滤 , 去 掉 网 控制 代码 及 无 用 信 
息 , 提 取出 有 用 的 信息 ,并 把 信息 用 一 定 的 模型 表示 ,使 查询 结果 更 为 准确 。 其 中 信息 的 
表示 模型 一 般 有 布尔 模型 .向量 模型 .概率 模型 和 神经 网 络 模型 等 。 

Web 上 的 信息 一 般 表现 为 网 页 ,对 每 个 网 页 ,应 生成 一 个 摘要 ,此 摘要 将 显示 在 查询 
结果 的 页 面 中 ,告诉 查询 用 户 各 网 页 的 内 容 概要 。 模 型 化 的 信息 将 存放 在 临时 数据 库 中 ， 
由 于 Web 数据 的 数据 量 极为 庞大 ,为 了 提高 检索 效率 , 须 按 照 一 定 规则 建立 索引 。 

不 同 搜索 引擎 在 建立 索引 时 会 考虑 不 同 的 选项 ,如 是 否 建立 全 文 索引 、 是 否 过 滤 无 用 
词汇 .是否 使 用 meta 信息 等 。 

索引 的 建立 包括 : 

。 分 析 过 程 ,处 理 文档 中 可 能 的 错误 ; 

。 文档 索引 ,完成 分 析 的 文档 被 编码 进 存储 桶 ,有 些 搜索 引擎 还 会 使 用 并 行 索引 ， 

。 排序 ,将 存储 桶 按照 一 定 的 规则 排序 ; 

。 生产 全 文 存储 桶 。 最 终 形 成 的 索引 一 般 按照 倒 排 文件 的 格式 存放 。 

(3) 检索 及 用 户 交互 。 

前 面 两 部 分 属于 搜索 引擎 的 后 台 支 持 。 本 部 分 在 前 面 信息 索引 库 的 基础 上 ,接受 用 
户 查 询 请 求 ,并 到 索引 库 检索 相关 内 容 , 返 回 给 用 户 。 这 部 分 的 主要 内 容 包括 

用 户 查询 (query) 理 解 , 即 最 大 可 能 贴近 地 理解 用 户 通过 查询 串 想 要 表达 的 查询 目 


人 


的 ,并 将 用 户 查询 转换 化 为 后 台 检 索 使 用 的 信息 模型 ; 

根据 用 户 查 询 的 检索 模型 ,在 索引 库 中 检索 出 结果 集 ; 

结果 排序 : 通过 特定 的 排序 算法 ,对 检索 结果 集 进 行 排 序 。 

现在 用 的 排序 因素 一 般 涉及 查询 相关 度 , 如 Google 发 明 的 pagerank 技术 ,百度 的 竞 
价 技术 等 。 由 于 Web 数据 的 海量 性 和 用 户 初始 查询 的 模糊 性 ,检索 结果 集 一 般 很 大 ,而 
用 户 一 边 不 会 有 足够 的 耐性 逐个 查看 所 有 的 结果 ,所 以 怎样 设计 结果 集 的 排序 算法 ,把 用 
户 感 兴趣 的 结果 排 在 前 面 就 十 分 重要 。 

Web 搜索 引擎 的 工作 模式 如 图 6. 3 所 示 。 



























I 二 
抓 取 Web 页面 8 6 
用 户 Web 搜 索引 擎 
全 查询 关键 词 抓 取 Web 页 面 
人 
S 





返回 搜索 结果 






抓 取 Web 页 面 


sg 
\、 - 滩 


6.3 Web 搜索 引擎 的 工作 模式 

















3, 搜索 引擎 的 技术 设计 与 算法 

搜索 引擎 的 评价 指标 有 响应 时 间 、 查 全 率 、 查 准 率 和 用 户 满意 度 等 。 其 中 响应 时 间 是 
从 用 户 提交 查询 请 求 到 搜索 引擎 给 出 查询 结果 的 时 间 间 隔 ,响应 时 间 必 须 在 用 户 可 以 接 
受 的 范围 之 内 。 查 全 率 是 指 查询 结果 集 信 息 的 完备 性 。 查 准 率 是 指 查 询 结果 集中 符合 用 
户 要 求 的 数目 与 结果 总 数 之 比 。 用 户 满意 度 是 一 个 难以 量化 的 概念 ,除了 搜索 引擎 本 身 
的 服务 质量 外 , 它 还 和 用 户 群体 、 网 络 环境 有 关系 。 在 搜索 引擎 可 以 控制 的 范围 内 ,其 核 
心 是 搜索 结果 的 排序 , 即 前 面 提 到 的 如 何 把 最 合适 的 结果 排 到 前 面 。 

总 的 来 说 , Web 搜索 引擎 的 三 个 重要 问题 是 ， 

”响应 时 间 一 一 一 般 来 说 合理 的 响应 时 间 在 秒 这 个 数量 级 。 

"关键 词 搜索 一 一 得 到 合理 的 匹配 结果 。 

。 搜索 结果 排序 一 一 如 何 对 海量 的 结果 数据 排序 。 

所 以 搜索 引擎 的 体系 结构 的 设计 时 需要 考虑 信息 采集 .索引 技术 和 搜索 服务 三 个 模 
块 的 设计 。 
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1) 信息 采集 
Web 搜索 引擎 的 信息 采集 模块 的 主要 功能 是 : 
执行 基于 超 文本 传输 协议 (Hypertext Transfer Protocol, HTTP), 从 Web 上 收集 页 


面 信息 , 即 Web 机 器 人 (爬虫 ) 程 序 。 


典型 的 基于 超 文 本 传输 协议 的 网 络 应 答 图 示 见 图 6. 4。 





GET /index.html HTTP71.1 
Host: waw. Google. com 
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eg HTTP/L 1 
1 re 1 Cr Web 服 务 器 
有 Last-Modified: Wed, 23 May 2010 23:11:55 GMT 
/ Etag: “3f80f-1b6-3elcb03b” 
/ Accept-Ranges: bytes 5 
1 Content-Length: 438 a 
| Connection: close > 
| Content-Type: text/html; charset=UTF-8 > 
一 个 HTTP 请 求 的 命令 请 求 的 命令 的 对 应 响 
实例 应 反馈 实例 
\、 
图 6.4 基于 超 文本 传输 协议 的 网 络 应 答 图 
2) 索引 技术 
(1) 网 络 息 虫 程序 的 工作 模式 。 
网 络 仆 虫 程序 根据 HTTP 协议 ,发送 请 求 , 并 通过 TCP 连接 接收 服务 器 的 应 答 。 
由 于 Web 搜索 引擎 需要 抓 取 数 以 亿 计 的 页 面 , 所 以 建立 快速 分 布 式 的 网 络 疏 虫 程序 
才能 满足 搜索 引擎 对 性 能 和 服务 的 要 求 ,其 物理 实现 可 能 是 一 组 终端 。 
疏 虫 程序 的 物理 设备 架构 图 如 图 6.5 所 示 。 
(2) 网 络 疏 虫 程序 的 基础 结构 。 
首先 网 络 疏 虫 程序 从 URL 链接 库 读 取 一 个 或 多 个 URL 作为 初始 输入 并 进行 域名 
解析 。 
然后 根据 域名 解析 结果 (IP) 访 问 Web 服务 器 ,建立 TCP 连接 ,发 送 请 求 ,接收 应 答 ， 
存储 接收 数据 ,并 分 析 提 取 链 接 信息 (URL) 放 入 URL 链接 库 里 。 


所 示 


面 的 
性 能 


疏 虫 程序 递归 执行 该 过 程 直 到 URL 链接 库 为 空 。 网 络 疏 虫 程序 的 基础 结构 如 图 6. 6 
3) 信息 采集 优化 

信息 采集 优化 需要 考虑 到 : 网 络 连接 优化 策略 .持久 性 连接 和 多 进程 并 发 设计 等 方 
问题 。 同 时 由 于 网 络 疏 虫 程序 会 频繁 调用 域名 系统 ,域名 系统 缓存 可 提高 疏 虫 程序 
需要 使 用 Web 缓存 技术 ,如 相关 域名 系统 的 缓存 策略 。 

。 LRU(Least Recently Used) 算 法 : 将 最 近 最 少 使 用 的 内 容 替 换 出 Cache 缓存 ; 
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搜索 引擎 : 疏 虫 集群 机 器 











6.5 疏 虫 程序 物理 设备 架构 图 
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6.6 网 络 息 虫 程序 的 基础 结构 


。 LFU(Lease Frequently Used) 算 法 : 将 访问 次 数 最 少 的 内 容 蔡 换 出 Cache 缓存 ; 
。 FIFO(First-In,First-Out) 算 法 : 在 Cache 缓存 中 执行 数据 的 先进 先 出 流程 方法 。 


4) 网 页 抓 取 算法 


(1) 深度 优先 算法 。 
在 Web 收集 页 面 信息 时 ,使 用 一 个 或 一 组 预定 义 URL 地 址 开始 ,然后 根据 页 面 内 容 


\ 
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#198; 
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中 的 超 链接 深度 抓 取 页 面 , 直 到 搜索 结束 (没有 新 的 URL) 。 

(2) 广度 优先 算法 。 

在 Web 收集 页 面 信息 时 ,使 用 一 个 或 一 组 预定 义 URL 地 址 开始 ,然后 根据 页 面 内 容 
中 的 超 链接 广度 抓 取 页 面 , 抓 取 下 一 层 的 URL 直到 这 一 层 的 URL 完全 被 抓 取 , 直 到 搜 
索 结 束 时 返回 。 

(3) 基于 内 容 算法 。 

根据 关键 字 .主题 文档 的 相似 度 和 链接 文本 (Linked texts) 估 计 链 接 值 ,并 确定 相应 
搜索 策略 的 算法 。 

链接 文本 是 包含 对 URL 链接 解释 说 明和 内 容 摘要 的 文字 信息 。 

(4) 基于 HITS 的 算法 。 

该 算法 的 主要 思想 是 : 在 抓 取 Web 页 面 时 ,采用 Authority/Hub 抓 取 策 略 。 
Authority 表示 该 页 面 被 其 他 页 面 所 引用 的 次 数 (页 面 人 度 值 ,in-degree value)。Hub 表 
示 其 他 页 面 引 用 该 页 面 的 次 数 ( 页 面 出 度 值 ,out-degree value) 。 

(5) PageRank(Google 的 专利 技术 ) 。 

Google 的 PageRank 根据 网 站 的 外 部 链接 和 内 部 链接 的 数量 和 质量 来 衡量 网 站 的 价 
值 。PageRank 背后 的 概念 是 ,每 个 到 页 面 的 链接 都 是 对 该 页 面 的 一 次 投票 ,被 链接 的 越 
多 ,就 意味 着 被 其 他 网 站 投票 越 多 。 这 个 就 是 所 谓 的 “链接 流行 度 ” 一 一 衡量 多 少 人 愿意 
将 他 们 的 网 站 和 你 的 网 站 挂钩 。PageRank 这 个 概念 引 自学 术 中 一 篇 论文 的 被 引述 的 频 
度 一 一 即 被 别人 引述 的 次 数 越 多 ,一 般 判断 这 篇 论文 的 权威 性 就 越 高 。 

Google 有 一 套 自动 化 方法 来 计算 这 些 投票 。Google 的 PageRank 分 值 从 0~10; 
PageRank 为 10 表示 最 佳 ,但 非常 少见 ,类 似 里 氏 震 级 (Richter scale) ,PageRank 级 别 也 
不 是 线性 的 ,而 是 按照 一 种 指数 刻度 。 这 是 一 种 奇特 的 数学 术语 ,意思 是 PageRank4 不 
是 比 PageRank3 好 一 级 一 一 而 可 能 会 好 6 一 7 倍 。 因 此 ,一 个 PageRank5 的 网 页 和 
PageRank8 的 网 页 之 间 的 差距 会 比 你 可 能 认为 的 要 大 得 多 。 

PageRank 的 定义 : 

我 们 假设 有 Ti ,…,T, 个 页 面 指向 页 面 A( 即 引用 )。 参 数 4 是 一 个 阻尼 因子 ,其 取 
值 区 间 属 于 (0,1) ,我 们 通常 取 值 为 0.85。C(A) 定 义 为 指向 页 面 A 的 其 他 页 面 的 连接 
数 ,页 面 A 的 PageRank 或 PR(A) 值 可 以 通过 下 面 的 公式 得 到 : 


PRCT) ,..., PR(T,) 
i + .00 ) 


注意 : PageRank 值 是 Web 页 面 的 概率 分 布 表 示 , 所 以 所 有 Web 页 面 的 PageRank 
值 的 和 是 1。 

5) 索引 技术 

Web 爬虫 抓 取 回 来 的 页 面 信息 ,需要 放 入 索引 数据 库 里 。 索 引 建立 的 好 坏 对 于 搜索 
引擎 有 很 大 的 影响 ,优秀 的 索引 能 够 显著 地 提高 搜索 引擎 系统 运行 的 效率 及 检索 结果 的 
品质 。 文 本 分 析 技术 是 建立 数据 索引 信息 的 支撑 技术 。 

(1) 索引 建立 : 预 处 理 。 

当 Web 搜索 引擎 获得 数据 信息 以 后 ,首先 需要 对 数据 进行 预 处 理 , 如 将 句子 切 分 成 








PR(A)= (1 w+dl 
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有 意义 的 词汇 。 由 于 中 文 的 特殊 性 在 切 分 句子 时 会 产生 二 义 性 ,如 何 合理 地 切 分 词汇 是 
一 个 技术 难题 。 

中 文 分 词 完 全 不 同 于 英文 分 词 ,英文 行文 中 ,单词 间 以 空格 分 隔 ; 而 中 文具 有 字 / 句 / 
段 有 明显 的 分 隔 符 , 唯 独 词 没有 形式 上 的 分 隔 符 存 在 。 

(2) 索引 建立 : 倒 排 文件 模型 。 

(3) 倒 排 文 件 (inverted file) ,是 指 一 个 词汇 集合 W 和 一 个 文档 集合 D 之 间 对 应 关系 
的 数据 结构 。 建 立 倒 排 文件 索引 是 建立 索引 数据 库 的 核心 工作 。 倒 排 文 件 模型 如 图 6. 7 
所 示 。 



































图 6.7 索引 模块 架构 


6) 搜索 服务 

搜索 服务 是 Web 搜索 引擎 工作 流程 的 最 后 一 步 ,根据 用 户 提交 的 查询 关键 字 展 开 搜 
索 , 将 匹配 结果 返回 给 用 户 。 搜 索 服务 的 好 坏 直接 影响 Web 搜索 引擎 的 用 户 满意 程度 。 

(1) 结果 显示 。 

接受 用 户 的 输入 ,提交 用 户 搜索 请 求 。 然 后 根据 搜索 结果 列表 合理 的 展示 给 用 户 。 


和 


并 在 保护 隐私 的 前 提 下 ,记录 用 户 使 用 行为 的 详细 信息 ,以 便 提 高 下 次 服务 的 满意 度 。 
(2) 网 页 快照 。 
Web 上 的 数据 每 时 每 刻 都 在 变化 着 ,所 以 随时 存在 着 检索 到 的 页 面 信息 已 经 不 存在 
的 可 能 。Web 搜索 引擎 为 了 提高 服务 质量 ,需要 对 搜索 到 的 页 面 信息 进行 快照 ,以 便 在 
原来 页 面 信息 失效 的 情况 下 ,保证 用 户 能 够 通过 快照 功能 查看 页 面 。 


6.3 大 数据 索引 与 查询 技术 


6.3.1 大 数据 索引 和 查询 


索引 和 查询 技术 是 数据 处 理 系统 的 重要 入 口 之 一 ,近年 来 随 着 数据 量 (Volume) 、 数 
据 处 理 速度 (Velocity) 和 数据 多 样 性 (Variety) 的 快速 发 展 ,大 数据 相关 的 索引 和 查询 技 
术 作为 大 数据 的 主要 人 口 之 一 也 变 得 更 为 重要 。 传 统 的 索引 和 查询 技术 虽然 不 能 很 好 地 
应 对 大 数据 带 来 的 挑战 ,然而 其 核心 技术 ,例如 数据 库 和 数据 挖掘 系统 中 使 用 的 经 典 索 
引 ，, 例 如 哈 希 索引 、B 树 索 引 、 位 图 索引 和 R 树 索引 ,信息 检索 系统 中 的 倒 排 索 引 等 依然 
是 大 数据 索引 和 查询 系统 的 基石 。 

大 数据 带 来 的 主要 挑战 是 其 庞大 的 数据 量 , 单 个 结 点 不 能 或 者 无 法 有 效 地 处 理 这 种 
数量 级 的 数据 。 此 外 数据 增长 速度 非常 快 ,这 要 求 系统 不 但 能 处 理 已 有 的 大 数据 ,还 要 能 
快速 地 处 理 新 数据 。 这 些 特征 使 得 我 们 需要 考虑 很 多 在 大 数据 环境 中 独 有 的 因素 来 开发 
和 选择 大 数据 索引 和 查询 技术 。 

分 布 式 是 处 理 大 数据 的 一 个 基本 思路 ,这 同样 适用 于 大 数据 索引 和 查询 系统 。 分 布 
式 索 引 把 全 部 索引 数据 水 平 切 分 后 存储 到 多 个 结 点 上 ,这 可 以 很 好 地 解决 两 个 问题 ; 

(1) 单个 结 点 无 法 存储 庞大 的 索引 数据 ; 

(2) 单个 结 点 构建 索引 的 效率 瓶颈 。 当 业务 增长 ,需要 索引 更 多 的 数据 或 者 更 快 的 
索引 数据 时 ,可 以 通过 水 平 扩展 增加 更 多 的 结 点 来 解决 。 

切 分 数据 的 方式 有 多 种 ,常见 的 方法 有 随机 方法 、 哈 希 方法 和 区 间 方 法 。 随 机 方法 将 
所 有 数据 随机 分 布 到 不 同 的 结 点 ,这 种 方法 不 支持 更 新 操作 。 哈 希 方法 根据 某 个 列 或 者 
某 些 列 ( 称 为 分 布 键 ) 的 哈 希 值 将 数据 分 布 到 不 同 的 结 点 。 区 间 方 法 将 所 有 的 数据 按照 不 
同 区 间 分 布 到 不 同 的 结 点 。 区 间 到 结 点 的 映射 信息 需要 保存 下 来 。 

不 管 使 用 什么 样 的 切 分 方法 ,都 需要 注意 数据 分 布 的 均匀 性 ,避免 大 量 数据 分 布 到 一 
个 或 者 几 个 结 点 上 ,这 样 就 失去 了 分 布 式 计算 的 优势 ,因而 对 算法 的 选择 和 设计 有 一 定 要 
求 。 另 外 分 布 键 的 选择 也 很 重要 ,好 的 分 布 键 能 将 数据 相对 均匀 地 分 布 到 不 同 的 结 点 ,从 
而 达到 负载 均衡 的 目的 。 

由 于 索引 数据 是 分 布 在 不 同 的 结 点 上 ,因而 查询 也 是 分 布 式 的 。 所 有 结 点 或 者 部 分 
结 点 的 查询 结果 由 主 结 点 ( 主 从 架构 ) 或 者 查询 结 点 (点 对 点 架构 ) 进 行 汇总 ,然后 得 到 最 
终结 果 。 不 同 的 分 布 式 系统 支持 不 同类 型 的 查询 语言 和 查询 能 力 。 分 布 式 数据 库 系 统 支 
持 SQL 查询 。 

NoSQL 产品 类 型 和 功能 各 异 ,有 的 仅 支 持 主键 查询 ,有 的 支持 范围 查询 ,有 的 还 支持 
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有 限 的 JOIN ;全 文 检索 系统 的 查询 语法 最 为 灵活 ,但 通常 不 支持 JOIN 或 者 有 限 地 支持 
JOIN 。 

当 一 个 结 点 故障 时 ,将 无 法 访问 该 结 点 上 的 数据 。 为 了 提高 可 用 性 ,防止 单 点 故障 ， 
通常 使 用 镜像 技术 或 者 保存 多 个 副本 到 不 同 的 结 点 上 。 副 本 可 以 使 用 不 同 的 分 布 策略 ， 
例如 基于 Hadoop 的 系统 通常 有 两 个 副本 : 一 个 副本 在 同 机 架 上 的 其 他 结 点 , 另 一 个 副 
本 在 其 他 机 架 的 结 点 上 。 这 样 一 方面 可 以 有 效 利 用 数据 局 部 性 原理 改进 性 能 , 另 一 方面 
可 以 最 大 化 地 保证 数据 的 可 用 性 。 

有 些 系 统 副本 仅仅 起 到 数据 备份 的 作用 ,这 种 类 型 的 副本 不 能 接受 查询 请 求 ,主要 目 
的 是 提高 系统 的 可 靠 性 。 有 的 系统 的 副本 还 可 以 处 理 用 户 查 询 请 求 , 从 而 实现 负载 均衡 
以 最 大 化 地 利用 系统 资源 。 然 而 副本 的 引入 也 大 大 增加 了 系统 的 复杂 性 ,因为 分 布 式 环 
境 下 任何 一 个 结 点 可 能 在 任何 时 刻 出 错 : 网 络 可 能 故障 、 磁 盘 可 能 故障 .系统 可 能 崩溃 。 

多 数 系统 采取 保证 数据 高 度 一 致 性 的 策略 : 只 有 主 副本 接受 写 请 求 ,然后 通过 文件 
块 复制 或 者 写 管道 将 数据 写 人 到 其 他 副本 。 也 有 一 些 NoSQL 系统 采用 最 终 一 致 性 策 
略 , 这 种 策略 中 在 某 一 个 时 刻 数据 在 不 同 的 副本 上 可 能 是 不 一 致 的 ,但 是 当 没 有 对 该 数据 
的 更 新 时 ,最 终 的 访问 将 返回 该 数据 的 最 新 值 。 

当 系统 不 能 适应 业务 的 需求 时 ,需要 对 系统 进行 动态 扩容 ,这 通常 需要 进行 数据 的 再 
分 布 , 即 根据 新 系统 中 结 点 的 个 数 按照 数据 分 布 策略 重新 对 数据 进行 分 布 。 当 数据 量 庞 
大 时 ,扩容 可 能 需要 较 多 的 时 间 。 为 了 降低 需要 移动 的 数据 量 , 可 以 采取 某 些 算法 来 实 
现 , 例 如 一 致 性 哈 希 算法 。 

目前 各 大 数据 库 厂商 ,例如 Oracle.IBM Greenplum 都 已 经 有 支持 分 布 式 索引 和 查 
询 的 产品 ,很 多 NoSQL 数据 库 例 如 Mongodb、HBase、Cassandra 也 支持 分 布 式 索 引 和 
查询 。 

还 有 很 多 面向 全 文 检索 的 产品 ,例如 Solr、ElasticSearch、Sphinx 均 支持 分 布 式 全 文 
索引 和 查询 , 且 这 些 产品 都 是 开源 的 。 值 得 一 提 的 是 ,Greenplum 的 GPText 将 Solr 的 
全 文 检索 能 力 引入 到 了 Greenplum 数据 库 之 中 ,使 得 它 可 以 同时 支持 SQL 和 Solr 的 全 
6.3.2 大 数据 处 理 案 例 : 登 机 有 牌 、 阅 卷 与 MapReduce 

映射 - 归 约 (MapReduce) 是 Google 多 年 前 推出 的 建立 海量 数据 索引 的 方法 ,有 人 说 
它 是 里 程 碑 性 的 技术 。 而 理解 “映射 - 归 约 ”, 又 是 理解 更 时 後 的 Hadoop 和 Spark 等 大 数 
据 技术 的 基础 。 其 实 , 在 Google 之 前 ,人 们 就 不 知 不 觉 地 用 了 映射 - 归 约 技术 ,如 机 场 分 
发 登 机 牌 .银行 取 号 排队 流水 作业 阅卷 。 

1. 搜索 引擎 有 多 快 

以 下 将 三 次 用 到 飞机 航班 相关 的 实例 ,在 百度 (或 Google) 查 询 栏 中 输入 CA1209 ,不 
到 一 秒 钟 ,百度 给 出 200 个 结果 ,分 成 20 多 页 呈现 ,为 后 面 叙述 方便 ,不 妨 把 这 200 个 结 
果 页 面 记 为 pl1,p2,… ,p200, 如 图 6.8 所 示 。 

2. 为 什么 快 ? 养 兵 千 日 的 倒 排 索引 

搜索 网 站 服务 器 中 有 这 样 一 个 索引 ,类 似 于 规范 的 科技 书籍 之 书 末 索 引 ,其 特点 是 一 
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图 6.8 搜索 引擎 有 多 快 
个 关键 字 对 多 个 标号 (或 页 码 ) ,又 称 为 倒 排 表 , 其 中 航班 CA1209 这 一 项 关键 字 , 对 应 了 
百度 列 出 的 200 条 信息 pl1,p2,…,p200。 
百度 在 回答 查询 时 ,一 秒 钟 送出 这 些 现成 的 pl1,p2,… ,p200, 如 表 6.2 所 示 。 
表 6.2 倒 排 索引 


关 键 字 包含 关键 字 的 页 面 队列 








航班 CA1209 p1,p2,…,p200 








而 这 个 倒 排 索引 是 由 若干 万 台 计算 机 (或 CPU) 以 365 天 X24 小 时 方式 ,夜以继日 得 
出 的 结果 。 


3. 大 数据 环境 下 , 倒 排 索引 有 多 难 
设 某 搜 索引 擎 每 天 新 增 1 亿 篇 网 文 ,考虑 到 网 文中 有 些 太 平凡 的 字 词 ( 停 用 词 , Stop 
Word) 不 适合 做 关键 字 , 如 “的 “地 “得 “不 但 “而 且 ”, 等 等 ,每 个 网 页 平均 有 效 关键 字 


按 100 估算 ,要 做 完 一 天 新 增 网 页 的 倒 排 表 ,用 笨 方 法 ,需要 读 扫描 1 亿 网 页 , 写 处 理 100 
亿 词汇 ,然后 记录 下 所 有 如 下 的 数据 对 : 


去 关键 字 , 所 在 页 面 过 
再 加 以 整理 ,去 重合 并 .压缩 ,这 需要 用 多 少 个 CPU 小 时 ! 需要 多 大 的 空间 ! 
Google 在 创业 之 初 , 提出 了 一 个 从 海量 文档 中 做 倒 排 索引 的 聪明 方法 一 一 
Map Reduce( 了 映射 - 归 约 ) , 正 是 它 , 协 调 若干 万 台 计 算 机 ,并 行 计算 ,完成 了 倒 排 表 的 构建 
与 维护 ,使 Google 在 求 多 求 快 的 竞争 中 立 于 不 败 之 地 。 
下 面 用 机 场 办 理 登 机 牌 的 例子 来 说 明 。 
4. 机 场 登 机 有 牌 分 发 中 的 映射 - 归 约 


乘客 在 首都 机 场 办 理 登 机 手续 时 ,会 经 过 三 次 映射 (三 次 映射 的 复合 还 是 映射 ) 和 一 


二 


次 归 约 。 
(1) 第 一 次 映射 ,分 而 治之 ,进入 首都 机 场 候 机 大 厅 , 乘 客 会 看 到 如 图 6. 9 所 示 的 液 
晶 屏 : 


画 卫 7 于 机、 攻 王 发 基 覃 
[eve 


第 一 次 映射 ， 
把 乘客 分 散 到 
值 机 台 工作 区 
例如 :CA1209 
在 K05 至 K14 





6.9 机 场 登 机 牌 分 发 中 的 映射 - 归 约 


这 屏 信息 提示 乘客 按 航班 分 流 ,例如 航班 CA1209 是 在 K0 一 K14 号 的 15 个 值 机 台 
办 理 登 机 牌 ;分 而 治之 ,缩小 了 数据 规模 ,这 是 古代 政治 家 治理 国家 的 经 典 策略 ,也 是 如 今 
处 理 大 数据 的 朴素 方法 。 

(2) 第 二 次 映射 ,把 乘客 分 到 值 机 台 。 

图 6. 10 展示 了 首都 机 场 K0~K14 值 机 台 办 理 登 机 牌 的 情况 。 为 保护 隐私 ,故意 把 
图 片 做 了 模糊 化 处 理 。 


3 归 约 Reduce: 值 机 员 并 行 | |2 第 二 次 映射 :工作 人 员 指 引 下 ， 1: 领 登 机 牌 的 乘客 排 成 队 
处 理 ,分 发 登 机 牌 (相当 于 | | 把 乘客 “分 流 ” 到 并 行 工作 的 列 等 候 处 理 
倒 排 表 ) ,分 流行 李 值 机 台 





图 6.10 第 二 次 映射 


右边 是 乘客 队列 (相当 于 第 3 段 例子 中 的 每 天 新 增 的 1 亿 个 网 页 )。 在 中 间 , 一 位 机 
场 人 员 把 乘客 分 成 组 (例如 15 人 一 组 ) ,一 次 进入 一 组 ,分 到 15 个 值 机 柜台 ,引导 加 上 乘 
客 趋 短 避 长 的 心态 ,保证 了 各 个 小 队列 长 度 大 致 平衡 。 


着 了 as 


(3) 第 三 次 映射 ,把 乘客 映射 到 《航班 , 座 号 》。 

柜台 处 理 包 括 验 看 证 件 , 发 放 登 机 牌 , 把 乘客 分 到 航班 上 ,并 给 托运 行李 挂 上 航班 
标签 。 

设 在 多 个 值 机 台 的 并 行 工作 下 ,证件 号 为 1.3、.5 的 乘客 ,分 到 了 航班 CA1209 ,而 证 
件 号 为 2.4.6 的 乘客 ,分 到 了 航班 3U8882, 于 是 ,得 到 了 下 列 《 乘 客 ,航班 号 , 座 号 》 三 
元 组 : 

《1,CA1209,1 排 A》,《3,CA1209,2 排 B》,《3,CA1209,3 排 C》， 

《2,3U8882,5 排 A》,《4,3U8882,7 排 B》,《6,3U8882,2 排 C》， 
至 此 ,并 行 地 完成 了 这 6 位 乘客 的 第 三 次 映射 。 

(4) 归 约 成 为 倒 排 表 。 

把 上 述 映 射 的 结果 按 航班 合并 , 约 简 ,成 为 便于 使 用 的 倒 排 表 ,如 表 6. 3 所 示 。 


表 6.3 归 约 成 为 倒 排 表 














关 键 字 乘客 证 件 号 及 其 座 号 队列 
航班 CA1209 1(1 排 A),3(2 排 B),5(3 排 C)…… 
航班 3U8882 2(5 排 A),4(7 排 B) ,6(2 排 C)…… 





这 一 步骤 ,把 同一 航班 的 乘客 归 到 一 起 ,例如 ,1、3、5 出 现在 倒 排 表 中 CA1208 这 一 
行 右边 ,对 乘客 而 言 , 是 归 类 ,对 信息 而 言 ,是 约 简 ,把 这 一 动作 被 称 为 归 约 (reduce) ,是 再 
合适 不 过 了 。 

登 机 牌 在 该 航班 起 飞 前 半 小 时 将 停办 ,对 应 倒 排 表 停 止 变 化 ,把 乘客 按 某 指标 (通常 
关注 重要 程度 ) 排 序 , 被 分 发 到 该 航班 和 机 场 .保险 公司 等 相关 部 门 。 

此 外 ,用 多 个 单 关键 字 的 倒 排 索引 作 交 集 , 可 以 得 到 多 关键 字 的 倒 排 索引 。 

(5) 倒 排 表 帮 助 改善 服务 上 述 倒 排 索引 能 帮助 机 组 人 员 知 道 登 机 人 数 与 座位 ,改善 
服务 ,例如 ,能 叫 出 头等 舱 客 户 和 金 卡 客户 的 姓名 且 服 务 到 座位 ,就 显得 格外 温馨 和 谐 。 

如 有 突 发 事件 发 生 ,作为 处 突 ” 依 据 ,例如 , 马 航 官方 能 在 突 发 事件 后 很 快 查 出 
MH370 的 乘客 信息 。 

综 上 所 述 ,办 理 登 机 牌 的 全 过 程 可 以 表达 为 如 图 6. 11 所 示 的 经 典 MapReduce 图 ,这 
个 图 大 致 反映 了 并 行 地 映射 - 归 约 的 流向 ,但 未 表达 描述 的 归 约 细节 。 

现在 的 互联 网 搜索 引擎 , 倒 排 表 中 的 机 理 大 致 如 上 ,但 数量 增 大 若干 个 数量 级 ,相当 
于 在 图 6. 11 中 的 乘客 组 有 几 千 万 , 值 机 台 (CPU) 有 100 万 ,而 航班 ( 倒 排 索引 项 ) 是 几 万 
至 见 坟 万 。 

需要 说 明 的 是 ,这 只 是 为 了 说 明 * 映 射 - 归 约 ”机制 而 编 的 例子 ,真实 的 机 场 工 作 机 制 
要 复杂 得 多 。 


5. 安检 时 的 映射 - 归 约 
在 首都 机 场 ,可 以 看 到 ,在 安检 时 ,还 有 一 次 MapReduce 过 程 ,源源 不 断 的 乘客 乘坐 
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图 6.11 办 理 登 机 牌 的 全 过 程 MapReduce 


扶梯 下 到 安检 大 厅 : 

Map 一 一 一 位 安检 人 员 指 引 乘客 ,分 流 到 个 安检 口 ; 

Reduce 一 一 安检 后 ,分 成 若干 类 : 大 部 分 归 约 为 PASS 类 ,部 分 乘客 有 不 合适 行李 ， 
要 做 处 理 , 或 自 弃 , 或 托运 ,安检 人 员 会 对 应 机 票 .身份 证 做 相应 记录 …… 

6. 映射 - 归 约 技术 要 点 

上 面 的 例子 在 思路 上 还 真是 MapReduce( 不 仅仅 是 比喻 ), 虽 然 还 只 是 “小 样 ”, 但 事 
不 同 而 理 同 。 

大 数据 中 的 映射 - 归 约 有 下 列 要 点 。 

(1) 目标 : 完成 某 一 类 计算 ,典型 实例 之 一 是 生成 某 个 关键 字 上 的 倒 排 索引 ， 

(2) 对 象 : PB 级 的 数据 ,例如 来 自 云 ,来自 分布 式 文件 系统 的 文档 。 

(3) 并 行 处 理 , 多 个 ( 几 百 至 几 十 万 个 ,甚至 更 多 ) 处 理 单元 (计算 机 ,CPU、 人 员 ); 

(4) 有 序 : 在 机 场 、 车 站 , 当 客 户 增加 ,仅仅 增加 服务 台 来 做 归 约 (Reduce) ,常常 不 够 
有 序 ,增加 一 个 映射 (Map) 机 制 ,把 被 处 理 对 象 分 配 到 处 理 单元 ,是 不 可 少 的 环节 。 春 运 
中 人 们 更 体会 到 这 一 条 。 

(5) 多 层 映射 ,多 层 归 约 : 在 首都 机 场 我 们 看 到 了 映射 有 三 层 , 第 一 次 映射 到 值 机 台 
分 区 ,分 而 治之 ;第 二 次 次 到 值 机 台 , 第 三 次 映射 到 (乘客 ,航班 号 , 座 号 ) 三 元 组 ;根据 实际 
情况 , 归 约 也 可 以 是 多 层次 的 。 

这 里 也 要 强调 ,小 样 和 真实 数据 还 有 差距 ,量变 超过 了 一 定 阅 值 ,会 引发 质变 ,这 一 点 
在 实践 中 必须 注意 。 
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6.4 相似 性 搜索 工具 


相似 性 搜索 工具 用 于 识别 哪些 候选 要 素 与 要 匹配 的 一 个 或 多 个 输入 要 素 最 相似 (或 
最 相 异 )。 相 似 性 基于 数值 属性 ( 感 兴趣 属性 ) 的 指定 列表 。 如 果 指 定 了 一 个 以 上 的 要 匹 
配 的 输入 要 素 ,相似 性 将 基于 每 个 感 兴趣 属性 的 平均 值 。 输 出 要 素 类 (输出 要 素 ) 将 包含 
要 匹配 的 输入 要 素 以 及 找到 的 所 有 匹配 的 候选 要 素 ,这 些 要 素 以 相似 程度 排序 (由 最 相似 
或 最 不 相似 参数 指定 )。 返 回 的 匹配 数 基于 结果 数 参数 的 值 。 

1. 可 能 的 应 用 

可 以 用 相似 性 搜索 工具 找 出 和 某 城市 在 人 口 .教育 以 及 临近 特定 娱乐 机 会 方面 相似 
的 其 他 城市 。 

当地 领导 干部 可 能 希望 促进 其 城市 的 潜在 业务 ,从 而 提高 税收 。 相 似 性 搜索 工具 有 
助 于 帮助 他 们 找 出 与 其 城市 类 似 的 城市 ,以 便 他 们 可 以 比较 自身 的 吸引 力 属性 (例如 , 低 
犯罪 率 和 高 成 长 率 )。 

这 些 领 导 干 部 也 可 能 有 兴趣 查找 比 其 城市 大 或 小 ,但 位 置 相似 ( 余 弦 相 似 性 ) 的 城市 。 
找 出 与 他 们 的 城市 相似 但 更 小 或 更 大 ,并 且 具 有 他 们 期 望 拥有 的 商业 吸引 力 的 地 方 可 以 
让 他 们 指出 相似 性 ,同时 可 以 强调 小 的 优势 (不 那么 拥堵 .小 城镇 韵味 ) 或 者 大 的 好 处 ( 例 
如 更 多 的 顾客 ) 。 

这 些 领导 干部 们 还 可 能 关注 和 他 们 的 城市 不 特别 相似 的 城市 。 如 果 任 何不 特别 相似 
的 地 方 表现 出 他 们 期 望 吸引 的 业务 竞争 优势 ,此 分 析 则 可 以 为 他 们 提供 相对 所 需 的 信息 。 

人 力 资 源 经 理 可 能 希望 能 够 证 明 公司 的 工资 范围 。 找 出 在 大 小 、 生 活 成 本 ,市 容 建筑 
方面 相似 的 城市 后 , 便 可 以 查看 这 些 城市 的 工资 范围 ,从 而 查看 自己 是 否 在 此 行列 。 

犯罪 分 析 师 希望 搜索 数据 库 以 查看 某 罪行 是 否 属于 较 重 犯罪 形式 或 有 重罪 趋势 。 执 
法 机 构 用 此 方法 揭露 毒品 种 植 地 或 生产 地 。 标 识 具 有 相似 特征 的 地 方 可 能 有 助 于 制定 未 
来 的 搜索 目标 。 

大 型 零售 商 不 仅 拥有 数 个 成 功 店铺 ,也 有 少数 业绩 不 佳 的 店铺 。 找 到 一 些 具有 相似 
人 口 特征 和 环境 特征 (交通 便利 性 、 知 名 度 以 及 商业 互补 性 等 等 ) 的 地 方 有 助 于 标识 新 店 
的 最 佳 位 置 。 


2. 匹配 方法 


匹配 可 基于 属性 值 .等 级 属性 值 或 属性 剖面 (余弦 相似 性 )。 下 面 介 绍 每 种 方法 采用 
的 算法 。 对 于 所 有 方法 ,如 果 有 一 个 以 上 的 要 匹配 的 输入 要 素 , 则 需要 将 这 些 要 素 的 属性 
取 平 均值 来 创建 复合 目标 要 素 , 以 用 于 匹配 过 程 。 复 合 目标 要 素 如 表 6.4 所 示 。 

1) 属性 值 

为 匹配 方法 参数 选择 ATTRIBUTE_VALUES 时 ,工具 首先 标准 化 所 有 感 兴趣 属 
性 。 对 于 每 个 候选 要 素 ,将 从 目标 要 素 中 减 去 标准 化 值 , 求 得 平方 差 ,然后 再 将 每 个 平方 
差 相 加 。 相 加 的 总 和 即 为 该 候选 要 素 的 相似 性 指数 。 所 有 候选 要 素 经 处 理 后 ,按照 指数 
从 小 (最 相似 ) 到 大 (最 不 相似 ) 的 顺序 对 候选 要 素 进 行 分 级 。 
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表 6.4 复合 目标 要 素 
一 --- 

















感 兴趣 属性 
要 匹配 的 输入 要 素 
人 口 工作 人 口 失业 率 
A 100 万 50 万 2.5% 
105 万 40 万 2.6% 
用 于 匹配 的 复合 目标 要 素 102.5 万 45 万 2.55% 











开始 行动 : 

属性 值 的 标准 化 涉及 Z 变换 , 即 从 所 有 属性 值 的 平均 值 中 减 去 每 个 属性 值 然 后 除 以 
所 有 值 的 标准 差 。 标 准 化 将 所 有 属性 放 在 同一 比例 ,即使 它们 由 不 同类 型 的 数字 表示 时 
也 是 如 此 : 比率 (数字 0 到 1.0)、 人 口 ( 数 值 大 于 100 万 ) .距离 (例如 1000m)。 

2) 等 级 属性 值 

为 匹配 方法 参数 选择 RANKED_ATTRIBUTE_VALUES 时 ,工具 首先 为 目标 要 素 
和 所 有 候选 要 素 对 感 兴趣 属性 进行 分 级 排序 ,然后 为 每 个 候选 要 素 对 目标 要 素 相 关 的 每 
个 属性 平方 差 求 和 。 

3) 属性 剖面 

为 匹配 方法 参数 选择 ATTRIBUTE_PROFILES 时 ,此 工具 首先 将 所 有 感 兴趣 属性 
标准 化 (此 方法 需要 最 少 两 个 感 兴趣 属性 )。 然 后 用 余弦 相 似 性 数学 方法 比较 每 个 候选 要 
素 的 标准 化 属性 矢量 与 所 匹配 目标 要 素 的 标准 化 属性 矢量 。 两 个 矢量 A 和 B 的 余弦 相 
似 性 按照 如 下 方式 计算 : 


AB 
余弦 相似 性 指数 = 


[Sa [SB 

余弦 相似 性 与 属性 量 的 匹配 无 关 , 而 此 方法 主要 关注 这 些 属性 的 关系 。 如 果 在 比较 
的 矢量 (目标 与 候选 要 素 之 一 ) 中 创建 标准 化 属性 的 剖面 图 (折线 图 ), 则 可 以 看 到 非常 相 
似 或 非常 不 同 的 前面。 创建 标 准 化 属性 的 剖面 图 如 图 6. 12 所 示 。 

顶部 一 对 属性 的 剖面 非常 相似 ,而 底部 一 对 属性 的 剖面 十 分 不 同 。 

余弦 相似 性 指数 范围 为 1. 0( 完 全 相似 ) 到 一 1. 0( 完 全 不 相似 ) ,并 在 SIMINDEX( 余 
蓄 相 似 性 ) 字 段 中 加 以 报告 。 可 以 使 用 此 相似 性 方法 以 可 能 更 大 或 更 小 的 比例 找 出 具有 
相同 特征 的 地 方 。 

3. 最 佳 做 法 

1) 制图 相似 性 模式 

如 果 将 结果 数 参数 设 定 为 0, 则 工具 将 对 所 有 候选 要 素 进行 分 级 排序 。 此 分 析 的 输 
出 将 显示 相似 性 的 空间 模式 。 注 意 ,在 分 级 排序 所 有 候选 要 素 时 ,可 以 获取 有 关 相 似 性 和 
相 异 性 的 信息 。 显 示 相 似 性 的 空间 模式 如 图 6. 13 所 示 。 















































人 口 “工作 人 口 ” 失 业 率 
图 6.12 ”创建 标准 化 属性 的 剖面 图 





峡 要 匹配 的 要 素 


6.13 显示 相似 性 的 空间 模式 


2) 包括 空间 变量 
假设 知道 某 濒危 物种 在 某 地 ( 面 区 域 ) 生 存 很 好 ,希望 找到 该 物种 也 可 能 苗 壮 成 长 的 
其 他 地 方 。 你 可 能 想 寻找 与 物种 成 功 存活 环境 相似 的 地 方 ,但 可 能 还 需要 这 些 地 方 足够 


| 


大 ,足够 紧凑 以 保证 物种 成 活 。 在 此 分 析 中 ,可 以 计算 每 个 面 区 域 的 紧凑 性 指标 (一 般 紧 
凑 性 测量 基于 与 圆圈 区 域 具有 相同 周 长 的 面 的 面积 )。 运 行 相似 性 搜索 工具 时 ,可 以 将 紧 
凑 性 测量 和 能 够 反应 面 的 尺寸 (Shape_Area) 的 属性 包括 在 追加 到 输出 的 字段 参数 中 。 
就 紧凑 性 和 面积 排列 出 前 10 个 匹配 解决 方案 ,将 有 助 于 识别 再 引入 物种 的 最 适宜 位 置 。 

或 许 你 是 一 个 对 扩大 业务 感 兴趣 的 零售 商 。 如 果 你 已 经 拥有 成 功 店铺 ,可 以 通过 能 
够 反映 成 功 关键 特征 的 属性 来 帮助 查找 扩大 业务 的 候选 位 置 。 假 设 你 销售 的 产品 对 大 学 
生 最 有 吸引 力 ,并 且 想 避免 靠近 现 有 店铺 或 远离 竞争 者 。 在 运行 相似 性 搜索 工具 之 前 ,可 
以 使 用 近邻 分 析 工 具 创建 空间 变量 : 与 大 学 或 大 学 生 密 度 较 大 处 之 间 的 距离 ,与 现 有 店 
铺 的 距离 以 及 与 竞争 者 的 距离 。 运 行 相似 性 搜索 工具 时 ,可 以 将 这 些 空间 变量 包括 在 追 
加 到 输出 的 字段 参数 之 中 。 


6.5 数据 展现 与 交互 


计算 结果 需要 以 简单 直观 的 方式 展现 出 来 ,才能 最 终 为 用 户 所 理解 和 使 用 ,形成 有 效 
的 统计 、 分 析 、 预 测 及 决策 ,应 用 到 生产 实践 和 企业 运营 中 ,因此 大 数据 的 展现 技术 ,以 及 
与 数据 的 交互 技术 在 大 数据 全 局 中 也 占据 重要 的 位 置 。 

Excel 形式 的 表格 和 图 形 化 展示 方式 是 人 们 熟知 和 使 用 已 久 的 数据 展示 方式 ,也 为 
日 常 的 简单 数据 应 用 提供 了 极 大 的 方便 。 华 尔 街 的 很 多 交易 员 还 都 依赖 Excel 和 他 们 很 
多 年 积累 和 总 结 出 来 的 公式 来 进行 大 宗 的 股票 交易 ,而 微软 公司 和 一 些 创 业者 也 看 到 市 
场 潜力 ,在 开发 以 Excel 为 展示 和 交互 方式 ,结合 Hadoop 等 技术 的 大 数据 处 理 平台 。 

人 脑 对 图 形 的 理解 和 处 理 速度 ,大 大 高 于 文字 。 因 此 ,通过 视觉 化 呈现 数据 ,可 以 深 
人 展现 数据 中 的 潜在 的 或 复杂 的 模式 和 关系 。 随 着 大 数据 的 兴起 ,也 涌现 了 很 多 新 型 的 
数据 展现 和 交互 方式 ,和 专注 于 这 方面 的 一 些 创 业 公 司 。 这 些 新 型 方式 包括 交互 式 图 表 ， 
可 以 在 网 页 上 呈现 ,并 支持 交互 ,可 以 操作 ,控制 图 标 .动画 和 演示 。 另 外 交互 式 地 图 应 
用 ,如 Google 地 图 ,可 以 动态 标记 、 生 成 路 线 、 倒 加 全 景 航拍 图 等 ,由 于 其 开放 的 API 接 
口 ,可 以 与 很 多 用 户 地 图 和 基于 位 置 的 服务 应 用 结合 ,因而 获得 了 广泛 的 应 用 。Google 
Chart Tools 也 给 网 站 数据 可 视 化 提供 了 很 多 种 灵活 的 方式 。 从 简单 的 线 图 .Geo 图 、 
gauges( 测 量 仪 ) ,到 复杂 的 树 图 ,Google Chart Tools 提供 了 大 量 设计 优良 的 图 表 工 具 。 

诞生 于 斯 坦 福 大 学 中 的 大 数据 创业 公司 Tableau 正 逐 渐 成 为 优秀 的 数据 分 析 工具 之 
一 。Tableau 将 数据 运算 与 美观 的 图 表 完 美 地 接合 在 一 起 。 公 司 可 以 用 它 将 大 量 数据 拖 
放 到 数字 “画布 "上 ,转眼 间 就 能 创建 好 各 种 图 表 。Tableau 的 设计 与 实现 理念 是 : 界面 上 
的 数据 越 容易 操控 ,公司 对 自己 在 所 在 业务 领域 里 的 所 作 所 为 到 底 是 正确 还 是 错误 ,就 能 
了 解 得 越 透彻 。 快 速 处理 、 便 捷 共 享 , 是 Tableau 的 另 一 大 特性 。 仅 需 几 秒 钟 ,Tableau 
Server 就 可 以 将 交互 控制 面板 发 布 在 网 上 ,用 户 只 需要 一 个 浏览 器 ,就 可 以 方便 地 过 滤 、 
选择 数据 并 且 对 他 们 的 问题 得 到 回应 ,这 将 使 得 用 户 使 用 数据 的 积极 性 大 大 增加 。 

此 外 ,3D 数字 化 泻 染 技术 也 被 广泛 地 应 用 在 很 多 领域 ,如 数字 城市 .数字 园区 ,模拟 
与 仿真 .设计 制造 等 ,具备 很 高 的 直观 操作 性 。 现 代 的 增强 现实 AR 技术 ,通过 计算 机 技 
术 , 将 虚拟 的 信息 应 用 到 真实 世界 ,真实 的 环境 和 虚拟 的 物体 实时 地 至 加 到 了 同一 个 画面 
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或 空间 同时 存在 。 结 合 虚拟 3D 的 数字 模型 和 真实 生活 中 的 场景 ,提供 了 更 好 的 现场 感 
和 互动 性 。 通 过 AR 技术 ,用 户 可 以 和 虚拟 的 物体 进行 交互 ,如 试 戴 虚 拟 眼 镜 、 试 穿 虚拟 
衣服 .驾驶 模拟 飞行 器 等 。 在 德国 ,工程 技术 人 员 在 进行 机 械 安装 、 维 修 、 调 式 时 ,通过 头 
盔 显 示 器 ,可 以 将 原来 不 能 呈现 的 机 器 内 部 结构 及 其 相关 信息 .数据 完全 呈现 出 来 。 

现代 的 体感 技术 ,如 微软 的 Kinect 以 及 Leap 公司 的 Leap Motion 体感 控制 器 ,能 够 
检测 和 感知 到 人 体 的 动作 及 手势 ,进而 将 动作 转化 为 对 计算 机 及 系统 的 控制 ,使 人 们 摆脱 
了 键盘 鼠标 .遥控 器 等 传统 交互 设备 的 束缚 ,直接 用 身体 和 手势 来 与 计算 机 和 数据 交互 。 
当今 热门 的 可 穿戴 式 技术 ,如 Google 眼镜 , 则 有 机 地 结合 了 大 数据 技术 .增强 现实 以 及 体 
感 技术 。 随 着 数据 的 完善 和 技术 的 成 熟 ,我 们 可 以 实时 地 感知 周围 的 现实 环境 ,并 且 通 过 
大 数据 搜索 ,计算 ,实现 对 周遭 的 建筑 、 商 家 、 人 群 物 体 的 实时 识别 和 数据 获取 ,并 又 加 投 
射 在 人 的 视网膜 上 ,这 样 可 以 实时 地 帮助 我 们 工作 购物、 休闲 等 ,提供 极 大 的 便利 。 当 然 
这 种 新 型 设备 和 技术 的 弊端 也 是 显而易见 ,我 们 处 在 一 个 随时 被 监控 、 隐 私 被 刺探 ,侵犯 
的 状态 ,所 以 大 数据 技术 所 带 来 的 安全 性 问题 也 不 容 忽视 。 


6.6 数据 可 视 化 


图 灵 奖 得 主 Jim Gray 在 2007 年 提出 了 “以 数据 为 基础 的 科学 研究 第 四 范式 ”的 概 
念 ,研究 方法 已 经 从 “我 应 该 设计 个 什么 样 的 实验 来 验证 这 个 假设 ?” 逐 渐 发 展 为 ^ 从 这 
些 已 知 的 数据 中 我 能 够 看 到 什么 相关 性 ?” 数 据 可 视 化 是 获取 大 数据 Value 的 有 效 
手段 。 


6.6.1 数据 可 视 化 概念 

1. 什么 是 数据 可 视 化 

数据 可 视 化 是 关于 图 形 或 图 形 格式 的 数据 展示 。 在 一 个 被 关注 的 连贯 而 简短 的 报告 
中 体现 大 量 的 信息 。 虽 然 数据 可 视 化 可 以 处 理 书面 信息 ,但 焦点 往往 是 使 用 图 片 和 图 像 
信息 传达 给 观众 。 

此 外 ,数据 可 视 化 不 仅 限于 涉及 数据 的 使 用 。 也 可 能 是 可 视 化 各 种 各 样 的 信息 一 一 
你 可 以 将 自己 的 想法 与 猜想 与 他 人 交流 。 如 今 ,可 以 添加 各 种 技术 应 用 到 数据 可 视 化 ,其 
至 是 选择 交互 式 的 可 视 化 方法 。 

信息 的 视觉 化 表达 是 一 种 古老 的 分 享 创意 与 体验 的 方法 。 图 表 和 地 图 是 一 些 早期 数 
据 可 视 化 技术 的 重要 例证 。 

2. 为 什么 数据 可 视 化 很 重要 

如 上 所 述 , 人 类 已 经 使 用 数据 可 视 化 技术 很 长 一 段 时 间 了 ,图 像 和 图 表 已 被 证 明 是 一 
种 有 效 的 方法 来 进行 新 信息 的 传达 与 教学 。 有 研究 表明 ,80% 的 人 还 记得 他 们 所 看 到 的 ， 
但 只 有 20% 的 人 记得 他 们 所 阅读 的 ! 它 甚至 可 以 把 思想 和 事件 传 给 后 代 。 技 术 的 发 展 
进一步 提高 了 数据 可 视 化 带 给 人 们 的 机 遇 。 

也 许 使 用 数据 可 视 化 的 最 重要 的 好 处 是 它 能 够 帮助 人 们 更 快 地 理解 数据 。 你 可 以 在 
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一 个 图 表 中 突出 显示 一 个 大 的 数据 量 ,并 且 人 们 可 以 快速 地 发 现 关 键 点 。 如 果 用 书面 形 
式 , 它 可 能 需要 数 小 时 来 分 析 所 有 的 数据 及 联系 。 

此 外 ,这 种 展示 巨 量 数据 的 能 力 是 男 一 个 数据 可 视 化 的 优点 。 一 张 图 表 可 能 会 突出 
显示 一 些 不 同 的 事项 ,人 们 可 以 在 数据 上 形成 不 同 的 意见 。 这 自然 能 为 商业 开辟 新 的 途 
径 。 人 们 或 许 能 从 数据 中 发 现 一 些 意 想不到 的 东西 。 

数据 的 可 视 化 展示 ,提高 了 解释 信息 的 能 力 。 从 海量 的 数据 和 信息 中 寻找 联系 并 不 
容易 ,但 是 图 形 和 图 表 可 以 在 几 秒 内 提供 信息 。 一 望 便 知 ,可 提供 所 需 的 信息 。 

以 上 所 述 ,能 提高 在 工作 场所 或 教育 机 构 的 沟通 和 有 效 性 。 数 据 可 视 化 被 普遍 认为 
是 一 种 简单 而 有 效 的 方法 来 概括 数据 ,因此 它 是 可 以 提高 人 们 的 共享 信息 和 学 习 的 一 种 
方法 。 


6.6.2 数据 可 视 化 定义 与 方法 

1. 数据 可 视 化 定义 

数据 可 视 化 为 人 们 提供 了 从 阅读 局 部 信息 到 纵 观 全 局 信息 、 从 表面 到 本 质 和 从 内 容 
到 结构 的 有 力 工具 。 其 演化 过 程 是 从 文本 到 树 和 图 ,再 到 多 媒体 ,以 便 最 大 限度 地 利用 人 
们 的 多 通道 和 分 布 式 认 知 功能 以 及 形象 思维 功能 。 

数据 可 视 化 致力 于 通过 交互 可 视界 面 来 进行 分 析 、 推 理 和 决策 。 人 们 通过 使 用 可 视 
分 析 技术 和 工具 ,从 海量 ,动态 .不 确定 甚至 包含 相互 冲突 的 数据 中 整合 信息 ,获取 对 复杂 
情景 的 更 深层 的 理解 。 可 视 分 析 技术 允许 人 们 对 已 有 预测 进行 检验 ,对 未 知 信息 进行 控 
索 , 提 供 快速 .可 检验 和 易 理解 的 评估 ,以 及 提供 更 有 效 的 交流 手段 。 

数据 可 视 化 的 开发 和 大 部 分 项 目 开发 一 样 , 也 是 根据 需求 来 根据 数据 维度 或 属性 进 
行 筛选 ,根据 目的 和 用 户 群 选 用 表现 方式 。 

同一 份 数据 可 以 可 视 化 成 多 种 看 起 来 截然 不 同 的 形式 : 

。 有 的 可 视 化 目标 是 为 了 观测 .跟踪 数据 ,所 以 就 要 强调 实时 性 ,变化 ,运算 能 力 ,可 
能 就 会 生成 一 份 不 停 变化 .可 读 性 强 的 图 表 。 
有 的 为 了 分 析 数 据 ,所 以 要 强调 数据 的 呈现 度 、 可 能 会 生成 一 份 可 以 检索 、 交 互 式 
的 图 表 。 
有 的 为 了 发 现 数据 之 间 的 潜在 关联 ,可 能 会 生成 分 布 式 的 多 维 的 图 表 。 
有 的 为 了 帮助 普通 用 户 或 商业 用 户 快速 理解 数据 的 含义 或 变化 ,会 利用 漂亮 的 颜 
色 .动画 创建 生动 .明了 ,具有 吸引 力 的 图 表 。 
还 有 的 图 表 可 以 被 用 于 教育 .宣传 ,被 制作 成 海报 .课件 ,出 现在 街头 .广告 手持 、 
杂志 和 集会 上 。 这 类 图 表 拥 有 强大 的 说 服 力 , 使 用 强烈 的 对 比 .置换 等 手段 ,可 以 
创造 出 极 具 冲击 力 自 指 人 心 的 图 像 。 在 国外 许多 媒体 会 根据 新 闻 主 题 或 数据 , 雇 
用 设计 师 来 创建 可 视 化 图 表 对 新 闻 主 题 进行 辅助 。 
2. 数据 分 类 及 可 视 化 方法 
要 可 视 化 的 数据 大 致 可 分 以 下 几 类 : 
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1) 系列 对 象 ,之 间 相互 关联 

这 种 情况 下 因为 要 展示 数据 之 间 相 互 关系 ,所 以 实质 上 是 一 个 网 络 图 ,不 过 通过 一 些 
技巧 可 以 把 简单 网 络 图 变 成 更 好 的 形式 。 例 如 ,转换 成 流 图 或 圈 形 的 网 络 图 , 圈 形 可 以 使 
得 连 线 集中 在 圈 内 部 ,而 且 可 以 减少 交叉 。 

2) 层级 数据 

数据 之 间 可 分 成 几 个 层级 关系 ,就 是 层级 图 。 使 用 散 点 的 大 小 或 者 颜色 等 属性 来 表 
示 数 据 的 大 小 。 标 签 云 也 是 属于 此 类 ,我 们 可 以 通过 每 个 标签 的 大 小 颜色 等 等 来 标示 数 
据 的 大 小 。 

3) 多 维 数据 

如 何 将 超过 人 类 理解 能 力 的 三 维 以 上 的 数据 ,转化 为 人 类 能 视觉 直观 理解 的 可 视 化 
结果 ,是 多 维 数据 可 视 化 所 研究 的 课题 。 多 维 数据 有 多 种 传统 的 可 视 化 方法 ,包括 平行 坐 
标 、 散 点 图 和 矩阵 和 维度 降 维 法 。 

4) 将 时 间 和 空间 可 视 化 

通过 时 间 的 维度 来 查看 指标 值 的 变化 情况 ,一 般 通 过 增加 时 间 轴 的 形式 ,也 就 是 常见 
的 趋势 图 。 

当 图 表 存 在 地 域 信息 并 且 需 要 突出 表现 的 时 候 , 可 用 地 图 将 空间 可 视 化 ,地 图 作为 主 
背景 呈现 所 有 信息 点 。 

5) 让 图 表 “ 动 ”起 来 

数据 图 形 化 完成 后 ,可 结合 实际 情况 ,将 其 变 为 动态 化 和 可 操控 性 的 图 表 , 用 户 在 操 
控 过 程 中 能 更 好 地 感知 数据 的 变化 过 程 , 提 升 体验 。 

实现 动态 化 通常 以 下 两 种 方式 : 交互 和 动画 。 

6) 多 种 可 视 化 方法 结合 

单一 的 可 视 化 方法 已 不 能 满足 需要 。 越 来 越 多 的 可 视 化 系统 通过 结合 不 同 的 科学 和 
数据 可 视 化 方法 ,提供 一 致 的 多 视角 和 连贯 的 交互 手段 ,使 可 视 化 系统 能 够 提供 日 益 复 杂 
的 数据 所 需 的 分 析 能 力 。 

3. 数据 可 视 化 常用 工具 

有 一 些 用 于 数据 可 视 化 的 工具 。 这 些 工具 便于 收集 数据 及 简化 数据 的 使 用 方式 。 一 
些 常用 工具 包括 : 

(1) Google charts。Google 的 产品 在 数据 行业 是 众所周知 的 ,Google charts 是 一 个 
方便 的 工具 ,特别 是 对 于 初次 使 用 的 用 户 。 

(2) Datawrapper。 这 是 一 个 在 线 工 具 , 它 可 以 帮助 你 创建 交互 式 数据 可 视 化 。 

(3) RAW。 它 的 优点 是 有 很 多 现成 的 模板 框架 让 你 清晰 .快捷 地 呈现 信息 。 该 平台 
开源 ,能 够 自 定义 布局 ,以 及 使 用 其 他 的 设计 。 

(4) Infogram。 新 手 用 户 的 另 一 个 伟大 工具 。 它 允许 用 户 创建 不 同 的 图 表 和 信息 
图 ,而 且 系统 易于 使 用 。 

这 些 都 不 是 唯一 可 用 的 工具 ,你 可 以 找到 其 他 一 些 免 费 和 付费 软件 。 为 确保 你 所 使 
用 的 软件 适合 数据 可 视 化 目标 ,需要 多 多 对 比 。 
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4. 数据 可 视 化 背后 关键 概念 


看 过 数据 可 视 化 的 人 都 明白 设计 的 好 坏 。 如 果 这 些 信息 不 是 以 正确 的 ,恰当 的 方式 
呈现 ,那么 数据 可 视 化 的 好 处 就 很 容易 消失 ,特定 项 目 需要 特定 的 方法 。 

无 论 你 的 信息 是 关于 什么 的 ,使 用 数据 可 视 化 时 要 牢记 一 些 理念 。 以 下 是 优秀 数据 
可 视 化 技术 背后 核心 理念 的 集合 。 

1) 了 解 受 众 

呈现 数据 前 首要 做 的 是 思考 谁 将 查看 这 些 数据 ,为 找到 合适 的 数据 可 视 化 方法 ,了 解 
受众 非常 关键 。 

尽管 数据 可 视 化 通常 是 一 种 简化 数据 的 方法 ,受众 可 能 仍然 存在 不 同 的 知识 背景 , 需 
要 为 此 做 好 准备 。 如 果 数 据 可 视 化 的 目标 是 专业 受众 ,那么 可 以 使 用 更 适合 的 方法 以 及 
使 用 专业 术语 来 解读 数据 。 另 一 方面 ,普通 受众 可 能 需要 相同 的 数据 提供 更 加 清晰 的 解 
释 方式 。 

同样 重要 的 是 ,要 知道 受众 对 数据 的 预期 。 他 们 想 要 的 关键 点 是 什么 ? 你 需要 清楚 
呈现 到 数据 中 。 此 外 ,还 需要 明白 ,你 的 数据 意图 。 

2) 足够 了 解数 据 

除了 知道 你 的 目标 受众 ,您 还 需要 了 解数 据 的 内 涵 。 如 果 你 不 完全 明白 你 的 数据 , 那 
么 你 将 无 法 有 效 将 其 传达 给 受众 。 

你 也 无 法 从 数据 中 提取 所 有 信息 ,所 以 需要 找到 关键 信息 ,并 以 一 致 的 方式 呈现 它 。 
还 需要 确定 数据 的 正确 性 ,错误 的 数据 不 可 能 可 视 化 。 

如 果 你 正确 地 理解 它 , 就 可 以 从 数据 中 得 到 独特 而 有 趣 的 信息 。 

3) 讲 故事 

数据 可 视 化 还 应 当 力 求 传 达 一 个 故事 。 你 不 希望 这 些 数据 是 一 组 信息 仅仅 呈现 自 
己 ,而 是 有 使 用 数据 背后 的 信息 。 这 可 能 是 关于 引入 不 同 的 叙述 ,并 为 观众 描绘 的 特定 
图 像 。 

使 用 一 个 故事 ,往往 意味 着 受众 从 数据 中 获得 更 多 的 洞察 力 。 它 可 以 帮助 受众 了 解 
及 深入 新 的 信息 。 

事实 上 ,数据 可 视 化 技术 是 个 讲 故 事 的 好 工具 。 俗 话说 :图像 可 以 讲述 一 千 个 故 
事 。? 这 是 有 道理 的 ,你 应 该 用 它 来 作为 你 的 优势 。 通 过 数据 集 讲 故 事 并 不 困难 ,因为 你 可 
以 用 颜色 .字体 及 陈述 作为 你 讲 故 事 方法 的 一 部 分 。 

为 了 使 数据 可 视 化 讲 的 故事 更 加 精彩 ,理解 数据 这 点 是 至 关 重 要 的 。 

4) 保持 简单 

近年 来 ,数据 可 视 化 已 经 发 展 了 很 快 ,如 前 所 述 , 有 很 多 工具 和 系统 供 你 使 用 。 接 触 
不 同 的 独特 方法 并 不 意味 着 你 需要 使 用 它们 。 此 外 ,大 量 的 数据 不 应 该 机 械 地 认为 所 有 
的 信息 是 必 不 可 少 的 。 

总 之 ,你 需要 保持 数据 可 视 化 方法 简单 明了 。 你 不 要 企图 让 它 包 含 太 多 的 数据 信息 
或 使 用 过 多 不 同 的 技术 。 

如 果 你 考虑 通过 镜头 讲 故事 ,那么 重要 的 是 要 了 解 你 的 视觉 中 的 每 个 元 素 应 该 是 故 
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事 必 不 可 少 的 一 部 分 。 如 果 数 据 或 元 素 ,如 某 些 事物 的 图 片 ,没有 添加 任何 重要 的 故事 ， 
那么 你 不 应 该 把 它 包含 在 其 中 。 

拥有 过 多 元 素 的 可 视 化 实际 上 会 损坏 成 品 并 会 偏离 数据 。 你 还 需要 记 住 数据 可 视 化 
的 好 处 是 直观 地 呈现 大 量 的 数据 。 如 果 可 视 化 结果 看 起 来 费劲 ,那么 你 需要 回去 看 看 是 
否 使 用 了 错误 的 数据 呈现 方法 或 包含 了 太 多 元 杂 的 信息 。 

5) 正确 认识 平台 需求 

最 后 ,一 个 成 功 的 数据 可 视 化 技术 也 关注 技术 方面 。 现 在 ,人 们 通过 不 同 的 平台 查看 
和 访问 信息 ,重要 的 是 你 要 记 住 这 点 。 就 像 你 需要 知道 目标 受众 ,你 也 需要 考虑 人 们 阅读 
你 的 数据 可 视 化 的 方式 。 

你 需要 让 可 视 化 结果 方便 地 进行 平台 移植 ,如 在 移动 手机 ,平板 电脑 或 计算 机 之 问 移 
植 。 如 果 你 的 用 户 只 通过 手机 浏览 数据 ,那么 你 自然 会 受益 于 移动 手机 创建 可 视 化 的 方 
法 ,而 不 是 用 笔记 本 电脑 创建 数据 。 

除了 考虑 该 平台 的 界面 选项 外 ,还 需要 考虑 可 访问 性 问题 。 如 果 数 据 可 视 化 允许 有 
视觉 障碍 的 人 进行 适当 的 缩放 ,可 以 大 大 提高 用 户 体验 。 你 也 可 以 考虑 不 同 的 颜色 选择 
供 色盲 者 使 用 。 可 访问 性 有 助 于 提高 用 户 体验 ,确保 你 的 数据 可 视 化 可 用 于 所 有 受众 。 

5. 避免 可 视 化 数据 的 严重 误区 

以 上 的 关键 方法 可 以 帮助 你 建立 一 个 数据 可 视 化 策略 ,你 也 需要 清楚 一 些 常见 的 
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错误 。 
1) 错误 信息 
上 述 提 到 数据 中 的 错误 会 误导 受众 。 你 需要 确保 那些 正在 看 你 的 数据 的 人 ,看 到 的 
信息 正确 。 这 是 你 的 工作 ,以 确保 人 们 可 以 从 你 的 图 表 和 图 像 中 使 用 数据 ,而 不 需要 青 次 
检查 信息 。 

2) 不 完全 信息 

除了 确保 所 有 的 信息 是 正确 的 ,还 需要 提供 完整 的 数据 。 观 察 者 必须 在 其 全 部 信息 
中 找到 相关 数据 ,不 要 使 用 数据 可 视 化 来 欺骗 或 呈现 不 完整 的 信息 。 

数据 可 视 化 可 以 而 且 应 该 讲述 一 个 故事 ,但 故事 需要 有 完整 和 正确 的 信息 ,而 不 是 一 
份 报告 中 看 起 来 合适 的 数字 。 

3) 简单 的 数据 

虽然 需要 确保 数据 是 在 用 一 个 简单 的 方式 呈现 ,这 并 不 意味 着 简化 它 。 首 先 , 你 需要 
记 住 受众 一 一 如 果 是 将 数据 展示 给 专业 人 士 就 不 要 使 用 常见 的 简单 语言 。 另 一 方面 ,如 
果 受 众 对 它 没有 什么 认识 ,就 不 要 用 专业 术语 。 

除 此 之 外 ,你 也 不 能 期 望 受 众 在 没有 借助 清晰 描述 的 可 视 化 形式 的 情况 下 就 能 清楚 
地 了 解数 据 之 间 的 联系 。 你 不 能 因为 它 似乎 显而易见 而 省 略 信息 一 一 记 住 ,受众 只 会 看 
到 目前 的 数据 ,而 不 是 过 去 使 用 过 的 完整 数据 集 ! 

4) 不 合适 的 可 视 化 

当 呈 现 数据 时 ,需要 仔细 思考 这 些 数据 。 比 如 字体 .颜色 和 图 像 , 背 景 也 是 非常 重要 
的 。 例 如 ,如 果 是 呈现 由 于 特定 的 疾病 而 导致 死亡 的 信息 ,一 个 色彩 鲜艳 、 令 人 愉快 的 图 
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像 似乎 是 不 合适 的 。 

不 恰当 的 可 视 化 涉及 所 使 用 的 技术 ,使 它 难以 查看 和 理解 数据 。 例 如 ,你 可 以 使 用 气 
泡 来 代表 部 门 不 同 的 消费 水 平 ,但 如 果 不 考虑 尺寸 的 差异 ,气泡 就 会 误 判 和 不 准确 。 

5) 遗忘 注释 

过 度 简化 也 可 能 导致 缺失 注释 。 在 呈现 数据 时 ,很 容易 假设 受众 知道 图 像 的 每 一 个 
方面 是 什么 。 简 单 地 添加 注释 可 以 提高 用 户 体 验 ,并 确保 受众 知道 数据 中 的 所 有 数据 关 

作为 一 个 例子 ,你 可 能 有 一 个 图 表 显示 企业 在 过 去 十 年 销售 自行 车 量 。 如 果 数 据 中 
有 一 个 大 的 下 降 或 是 上 升 ,一 个 注释 解释 了 这 个 突然 变化 背后 的 原因 ,将 确保 观众 得 到 这 
个 额外 的 信息 。 

6. 信息 可 视 化 案例 

信息 可 视 化 囊括 了 数据 可 视 化 .信息 图 形 .知识 可 视 化 .科学 可 视 化 以 及 视觉 设计 方 
面 的 所 有 发 展 与 进步 。 下 面 是 信息 可 视 化 的 案例 分 享 。 

关系 网 一 一 基于 60 000 封 电子 邮件 存档 数据 ,用 不 同 颜色 深度 的 线条 呈现 了 地 址 簿 
中 用 户 和 个 体 之 间 的 关系 ,比如 回复 ,发送 , 抄 送 。 

关系 网 的 信息 可 视 化 如 图 6. 14 所 示 。 





图 6.14 关系 网 





根据 ESM 国际 电子 商情 针对 大 数据 应 用 现状 和 趋势 的 调查 显示 : 被 调查 者 最 关注 
的 大 数据 技术 中 , 排 在 前 五 位 的 分 别 是 大 数据 分 析 (12. 91%) 、 云 数据 库 (11. 82%)、 
Hadoop(11.73%)、 内 存 数据 库 (11.64%) 以 及 数据 安全 (9. 21%)。 
既然 大 数据 分 析 是 最 被 关注 的 技术 趋势 ,那么 大 数据 分 析 中 的 哪 项 功能 是 最 重要 的 
呢 ? 研究 发 现 , 排 在 前 三 位 的 功能 分 别 是 实时 分 析 (21. 32%) .丰富 的 挖掘 模型 (17. 97%) 
和 可 视 化 界面 (15. 91%)。 企 业 对 实时 分 析 的 需求 激增 ,成 就 了 很 多 以 实时 分 析 为 创新 技 
术 的 大 数据 厂商 。 
从 调查 结果 可 以 看 出 : 企业 在 未 来 一 两 年 中 有 人 迫切 部 署 大 数据 的 需求 ,并 且 已 经 从 
一 开始 的 基础 设施 建设 ,逐渐 发 展 为 对 大 数据 分 析 和 整体 大 数据 解决 方案 的 需求 。 我 们 
一 起 看 看 以 下 哪 五 大 类 数据 产品 有 大 数据 应 用 的 踪影 。 
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6.6.3 数据 可 视 化 分 析 


数据 可 视 化 分 析 一 般 可 以 分 为 以 下 几 种 类 型 。 

1. 原始 数据 分 析 

有 时 客户 并 不 完全 了 解 自 己 的 数据 ,人 员 更 蔡 、 平 台 迁 移 .数据 遗失 、 没 有 专门 的 负责 
人 去 进行 数据 的 管理 和 维护 ,都 会 造成 数据 的 资源 浪费 。 虽 然 随 着 时 间 过 去 , 越 早 的 数据 
价值 越 小 ,但 是 有 人 说 过 ,不 能 坦然 面 对 过 去 的 人 ,也 无 法 面 对 将 来 。 所 以 , 先 从 整理 过 去 
开始 吧 。 

2. 营销 数据 分 析 

营销 数据 的 重要 性 就 不 用 效 述 , 既 要 多 纬度 多 ,又 要 分 析 深 刻 结论 明了 。 最 好 是 又 美 
观 又 能 方便 导出 ,还 可 以 通过 邮箱 分 享 或 者 嵌入 网 页 。 

3, 业务 场景 数据 分 析 

能 把 已 有 业务 场景 数据 可 视 化 是 比较 个 性 化 的 需求 了 ,但 是 一 旦 实现 出 来 ,在 某 种 程 
度 上 说 还 是 能 增加 工作 效率 ,如 图 6. 15 所 示 。 





图 6.15 业务 场景 数据 分 析 


一 些 例子 表明 ,可视化 是 有 助 于 监控 风险 。 

银行 客户 订 制 了 一 套 基 于 转账 的 可 视 化 系统 , 若 有 人 打 款 ,就 会 从 打 款 地 发 出 一 条 光 
束 到 达 收 款 地 。 就 在 管理 层 观 察 了 一 段 时 间 后 惊人 的 发 现 , 在 每 天 的 同一 时 间 段 ,有 100 
多 条 光束 会 同时 汇集 落 到 同一 地 点 ,也 就 是 说 ,100 多 个 账户 在 打 款 进 同 一 账户 中 。 最 后 
经 过 查证 ,是 不 法 行为 。 这 就 是 通过 数据 可 视 化 直观 监测 反 洗钱 的 典型 案例 。 

4. 地 理 位 置 数据 分 析 

一 般 的 LBS 场景 是 ,将 业务 数据 放置 于 地 图 中 ,用 户 可 以 获取 可 视 化 的 数据 分 析 , 并 
能 自行 上 传 位 置 数据 。 但 是 现在 也 有 结合 物 联网 需求 的 可 视 化 地 理 位 置 分 析 , 是 不 是 更 
有 实感 ? 看 见 我 的 快递 在 努力 地 朝 我 的 方向 移动 ,突然 有 点 感动 …… 

5 用户 画像 

当 某 人 真 的 被 准确 地 定位 成 “ 女 属 丝 ”的 那 一 刻 , 就 会 发 现 , 她 或 许 不 太 喜 欢 这 个 功 
能 。 所 以 并 不 面向 用 户 本 身 的 话 , 可 能 还 不 错 。 让 商家 去 具象 地 了 解 用 户 的 信息 ,做 出 判 
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断 和 营销 。 
用 户 画 像 如 图 6. 16 所 示 。 














6.6.4 个 性 化 精准 推荐 


下 一 波 的 数字 化 淘金 浪潮 将 会 是 如 何 利用 数据 来 解决 实际 问题 ,而 不 仅仅 是 使 用 数 
据 的 行为 。“ 未 来 已 经 来 临 ,只 是 尚未 流行 ”一 一 著名 研究 机 构 Gartner。 

在 技术 不 到 位 ,数据 储备 不 足 的 情况 下 ,个 性 化 服务 可 能 出 力 不 讨 好 。 理 论 上 个 性 化 
服务 可 以 消除 通知 噪声 来 提高 现 有 用 户 满意 度 ,同时 可 以 发 展 新 用 户 , 利 用 长 尾 效 应 增加 
收益 。 

1. 订阅 推荐 

订阅 选项 真 的 非常 丰富 。 或 关联 社交 账户 ,或 通过 搜索 关注 话题 ,或 根据 以 往 阅 读 文 
章 推论 ,或 根据 关注 对 象 …… 订 阅 推荐 如 图 6. 17 所 示 。 

2. 商品 推荐 

根据 你 浏览 过 的 推荐 ,根据 你 购买 过 的 推荐 ,根据 和 你 一 样 购买 过 的 人 推荐 ,虽说 老 
套 , 但 成 功率 也 高 。 商 品 推荐 如 图 6. 18 所 示 。 

3. 社交 图 谱 & 兴趣 图 谱 

社交 图 谱 & 兴趣 图 谱 把 所 有 和 你 有 关 的 都 连 在 一 起 。 在 很 多 企业 中 ,社交 图 谱 分 析 
已 经 在 反 欺 诈 、 影 响 力 分 析 、 奥 情 监 测 , 市 场 细 分 、 参 与 优化 ,体验 优化 ,以 及 其 他 需要 快速 
确定 复杂 行为 模式 的 领域 成 功 应 用 。 社 交 图 谱 与 兴趣 图 谱 如 图 6. 19 所 示 。 

当 我 知道 我 看 到 的 这 个 东西 是 完 完 全 全 为 我 打造 的 时 候 ,我 更 想 知道 ,别人 在 看 些 
啥 …… 我 上 网 就 是 为 了 融入 这 个 世界 啊 。 


6.6.5 预测 和 预警 


预测 和 预警 无 论 是 在 商业 或 者 是 生活 问题 解决 上 都 是 有 实际 意义 的 ,在 初期 ,人 们 对 
其 可 到 达 的 精准 程度 还 是 有 一 定 担忧 。 但 是 播 了 几 十 年 的 天 气 预报 也 不 是 很 准 啊 …… 
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图 6.18 商品 推荐 
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图 6.20 社交 图 谱 & 兴趣 图 谱 


1. 交通 状况 预测 

监控 提供 的 数据 可 以 帮助 追踪 道路 交通 情况 ,可 以 进行 线路 推荐 和 目的 地 到 达 时 间 
的 预测 。 通 过 算法 ,如 果 街道 上 涌现 出 大 批 人 群 ,车 辆 可 以 及 时 进行 交通 道路 调整 。 

2. 医疗 类 预测 

利用 数据 库 中 病情 发 展 记录 做 出 预测 。 这 种 预测 将 基于 对 患者 日 常 行为 的 观测 , 力 
求 在 病情 出 现 恶 化 之 间 就 介入 治疗 。 甚 至 有 机 构 调查 一 些 拥有 长 寿 者 的 家 谱 和 基因 里 蕴 
含 的 生命 信息 。 最 后 即使 不 能 通过 研究 找到 延长 寿命 的 方法 ,但 至 少 能 通过 疾病 预防 , 提 
高 老年 群体 的 生活 质量 。 医 疗 类 预测 如 图 6. 20 所 示 。 

3. 消费 信誉 预测 

通过 数据 挖掘 分 析 和 机 器 学 习 技术 ,对 申请 者 提交 的 信息 进行 识别 ,并 结合 个 人 社交 
行为 及 海量 互联 网 信息 ,对 个 人 信用 进行 在 线 评分 。 基 于 强大 的 数据 点 基础 ,很 快 让 用 户 
得 到 信用 人 额度 ,额度 可 以 用 在 各 类 金融 和 非 金融 服务 领域 。 

消费 信誉 预测 如 图 6. 21 所 示 。 


6.6.6 决策 分 析 


大 到 总 金额 无 法 计算 的 商业 决策 ,小 到 站 在 包子 铺 门口 的 纠结 .出 门 走 哪 条 路 、 参 加 
朋友 婚礼 穿 什么 衣服 ,若是 真有 完美 的 决策 分 析 ,无 疑 是 选择 恐惧 症 患者 的 福音 。 

1. 销售 决策 

比如 一 个 购物 网 站 , 当 消 费 者 登录 这 个 网 站 时 ,会 把 这 名 消费 者 在 网 站 上 的 行为 和 以 
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前 其 他 登录 过 该 网 站 的 消费 者 行为 做 对 比 ,做 出 分 析 和 预测 ,然后 给 出 一 份 实时 的 建议 ， 
例如 ,现在 平台 是 应 该 向 消费 者 抛 出 一 个 聊天 信息 一 个 产品 打折 的 报价 ,一 个 视频 对 话 、 
还 是 一 个 电话 会 比较 好 ? 一 一 或 者 是 什么 都 不 做 最 好 。 

2. 旅行 决策 

通过 抓 取 海 量 数据 ,分 析 提 取 关 键 字 、 建 立 评分 体系 ,让 用 户 不 用 看 长 篇 攻略 就 能 掌 
握 核 心 信息 ,快速 做 出 旅行 决策 。 

对 于 大 数据 的 定义 ,著名 研究 机 构 Gartner 给 出 了 这 样 的 定义 :“ 大 数据 是 需要 新 处 
理 模 式 才 能 具有 更 强 的 决策 力 ,洞察 发 现 力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 和 多样 化 的 
信息 资产 ,” 去 掉 这 句 话 里 所 有 的 定语 ,得 到 的 是 : 大 数据 是 信息 资产 。 所 以 ,我 们 知道 
了 ,不 管 有 没有 大 到 哪 一 种 体 量 级 别 , 至 少 让 数据 信息 成 为 一 种 资产 也 算是 有 大 数据 精 
神 了 。 


6.7 知识 图 谱 


知识 图 谱 (Knowledge Graph) 是 当前 的 研究 热点 。 自 从 2012 年 Google 推出 自己 第 
一 版 知识 图 谱 以 来 , 它 在 学 术 界 和 工业 界 掀 起 了 一 股 热 潮 。 各 大 互联 网 企业 在 之 后 的 短 
短 一 年 内 纷纷 推出 了 自己 的 知识 图 谱 产 品 以 作为 回应 。 比 如 在 国内 ,互联 网 巨头 百度 和 
搜狗 分 别 推出 “知心 2 和”* 知 立方 ”来 改进 其 搜索 质量 。 
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6.7.1 知识 图 谱 的 概念 


知识 图 谱 本 质 上 是 语义 网 络 , 是 一 种 基于 图 的 数据 结构 ,由 结 点 (Point) 和 边 (Edge) 
组 成 。 在 知识 图 谱 里 ,每 个 结 点 表示 现实 世界 中 存在 的 “实体 ”, 每 条 边 为 实体 与 实体 之 间 
的 “关系 ”。 知 识 图 谱 是 关系 的 最 有 效 的 表示 方式 。 语 义 网 络 如 图 6. 22 所 示 。 
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图 6.22 语义 网 络 


通俗 地 讲 , 知 识 图 谱 就 是 把 所 有 不 同 种 类 的 信息 (Heterogeneous Information) 连 接 
在 一 起 而 得 到 的 一 个 关系 网 络 。 知 识 图 谱 提 供 了 从 “关系 ”的 角度 去 分 析 问 题 的 能 力 。 

知识 图 谱 这 个 概念 最 早 由 Google 提出 ,主要 是 用 来 优化 现 有 的 搜索 引擎 。 不 同 于 基 
于 关键 词 搜索 的 传统 搜索 引擎 ,知识 图 谱 可 用 来 更 好 地 查询 复杂 的 关联 信息 ,从 语义 层面 
理解 用 户 意图 ,改进 搜索 质量 。 比 如 在 Google 的 搜索 框 里 输入 Bill Gates 的 时 候 , 搜 索 
结果 页 面 的 右 侧 还 会 出 现 Bill Gates 相关 的 信息 比如 出 生年 月 家 庭 情况 等 等 。 

另外 ,对 于 稍微 复杂 的 搜索 语句 比如 “Who is the wife of Bill Gates”,Google 能 准确 
返回 他 的 妻子 Melinda Gates 的 信息 。 这 就 说 明 搜 索引 擎 通过 知识 图 谱 真正 理解 了 用 户 
的 意图 。 

上 面 提 到 的 知识 图 谱 都 属于 比较 宽泛 的 范畴 ,在 通用 领域 里 解决 搜索 引擎 优化 和 问 
答 系 统 (Question-Answering ) 等 方面 的 问题 。 接 下 来 介绍 特定 领域 里 的 (Domain- 
Specific) 知 识 图 谱 表示 方式 和 应 用 ,这 也 是 工业 界 比较 关心 的 话题 。 


6.7.2 知识 图 谱 的 表示 


假设 我 们 用 知识 图 谱 来 描述 一 个 事实 (Fact) 一 一 “ 张 三 是 李 四 的 父亲 ”。 这 里 的 实体 
是 张 三 和 李 四 , 关 系 是 “父亲 ”(is_father_of) 。 当 然 , 张 三 和 李 四 也 可 能 会 跟 其 他 人 存在 
着 某 种 类 型 的 关系 (暂时 不 考虑 ) 。 当 我 们 把 电话 号 码 也 作为 结 点 加 入 到 知识 图 谱 以 后 
(电话 号 码 也 是 实体 ), 人 和 电话 之 间 也 可 以 定义 一 种 关系 叫 has_phone, 就 是 说 某 个 电话 
号 码 是 属于 某 个 人 。 图 6. 23 就 展示 了 这 两 种 不 同 的 关系 。 
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图 6.23 事实 (Fact) 一 一 “ 张 三 是 李 四 的 父亲 ” 


另外 ,我 们 可 以 把 时 间作 为 属性 (Property) 添 加 到 has_phone 关系 里 来 表示 开通 电 
话 号 码 的 时 间 。 这 种 属性 不 仅 可 以 加 到 关系 里 ,还 可 以 加 到 实体 当中 , 当 我 们 把 所 有 这 些 
信息 作为 关系 或 者 实体 的 属性 添加 后 ,所 得 到 的 图 谱 称 为 属性 图 (Property Graph)。 属 
性 图 和 传统 的 RDF 格式 都 可 以 作为 知识 图 谱 的 表示 和 存储 方式 ,但 二 者 还 是 有 区 别 的 ， 
这 将 在 后 面 做 简单 说 明 。 


6.7.3 知识 图 谱 的 存储 


知识 图 谱 是 基于 图 的 数据 结构 , 它 的 存储 方式 主要 有 两 种 形式 : RDF 存储 格式 和 图 
数据 库 (Graph Database) 。 

如 表 6. 5 所 示 的 是 目前 比较 流行 的 基于 图 存储 的 数据 库 排 名 。 从 这 个 排名 中 可 以 看 
出 ,Neo4j 在 整个 图 存储 领域 里 占据 着 NO. 1 的 地 位 ,而 且 在 RDF 领域 里 Jena 还 是 目前 
为 止 最 为 流行 的 存储 框架 。 


表 6.5 流行 的 基于 图 存储 的 数据 库 排名 














Ranking DBMS Ranking DBMS 
21 Neo4j( 图 ) 61 Virtuoso(RDF, 关 系 等 ) 
32 MarkLogic(XML) 80 Jena(RDF) 
42 Titan( 图 ) 88 Sesame(RDF) 
46 OrientDB( 图 ,文档 ) 90 ArangoDB( 图 ) 














当然 ,如 果 需 要 设计 的 知识 图 谱 非常 简单 ,而且 查询 也 不 会 涉及 1 度 以 上 的 关联 查 
询 ,那么 也 可 以 选择 用 关系 型 数据 存储 格式 来 保存 知识 图 谱 。 但 对 那些 稍微 复杂 的 关系 
网 络 (现实 生活 中 的 实体 和 关系 普遍 都 比较 复杂 ) ,知识 图 谱 的 优点 还 是 非常 明显 的 。 首 
先 ,在 关联 查询 的 效率 上 会 比 传统 的 存储 方式 有 显著 的 提高 。 当 涉及 2、3 度 的 关联 查询 
时 基于 知识 图 谱 的 查询 效率 会 高 出 几 千 倍 甚至 几 百 万 倍 。 其 次 ,基于 图 的 存储 在 设计 上 
会 非常 灵活 ,一 般 只 需要 局 部 的 改动 即 可 。 比 如 有 一 个 新 的 数据 源 ,只 需要 在 已 有 的 图 谱 
上 插入 就 可 以 。 与 此 相反 ,关系 型 存储 方式 灵活 性 方面 比较 差 , 它 所 有 的 Schema 都 是 提 
前 定义 好 的 ,如 果 后 续 要 改变 ,那么 代价 是 非常 高 的 。 最 后 ,把 实体 和 关系 存储 在 图 数据 
结构 是 一 种 符合 整个 故事 逻辑 的 最 好 的 方式 。 
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6.7.4 知识 图 谱 的 应 用 


以 下 主要 讨论 知识 图 谱 在 互联 网 金融 行业 中 的 应 用 ,当然 ,很 多 应 用 场景 和 想法 都 可 
以 延伸 到 其 他 行业 。 这 里 提 到 的 应 用 场景 只 是 冰山 一 角 , 在 很 多 其 他 的 应 用 上 ,知识 图 谱 
仍然 可 以 发 挥 它 潜在 的 价值 。 

1. 反 欺 诈 

反 欺 诈 是 风 控 中 非常 重要 的 一 道 环节 。 基 于 大 数据 的 反 欺 诈 的 难点 在 于 如 何 把 不 同 
来 源 的 数据 (结构 化 , 非 结构 ) 整 合 在 一 起 ,并 构建 反 欺诈 引擎 ,从 而 有 效 地 识别 出 欺诈 案 
件 ( 比 如 身份 造假 .团体 欺诈 、 代 办 包装 等 )。 不 少 欺诈 案件 会 涉及 复杂 的 关系 网 络 , 这 也 
给 欺诈 审核 带 来 了 新 的 挑战 。 作 为 关系 的 直接 表示 方式 ,知识 图 谱 可 以 很 好 地 解决 这 两 
个 问题 。 首 先 , 知 识 图 谱 提 供 非常 便捷 的 方式 来 添加 新 的 数据 源 , 这 一 点 在 前 面 提 到 过 ; 
其 次 ,知识 图 谱 本 身 就 是 用 来 表示 关系 的 ,这 种 直观 的 表示 方法 可 以 帮助 我 们 更 有 效 地 分 
析 复 杂 关 系 中 存在 的 特定 的 潜在 风险 。 

反 欺 诈 的 核心 是 人 ,首先 需要 把 与 借款 人 相关 的 所 有 的 数据 源 打通 ,并 构建 包含 多 数 
据 源 的 知识 图 谱 ,从 而 整合 成 为 一 台 机 器 可 以 理解 的 结构 化 的 知识 。 在 这 里 ,我 们 不 仅 可 
以 整合 借款 人 的 基本 信息 (比如 申请 时 填写 的 信息 ) ,还 可 以 把 借款 人 的 消费 记录 ,行为 记 
录 、 网 上 的 浏览 记录 等 整合 到 整个 知识 图 谱 里 ,从 而 进行 分 析 和 预测 。 这 里 的 一 个 难点 是 
很 多 的 数据 都 是 从 网 络 上 获取 的 非 结构 化 数据 ,需要 利用 机 器 学 习 、 自 然 语言 处 理 技术 把 
这 些 数据 变 成 结构 化 的 数据 ,如 图 6. 24 所 示 。 








6.24 反 欺 诈 


2. 不 一 致 性 验证 

不 一 致 性 验证 可 以 用 来 判断 一 个 借款 人 的 欺诈 风险 ,这 个 跟 交叉 验证 类 似 。 比 如 借 
款 人 张 三 和 借款 人 李 四 填 写 的 是 同一 个 公司 电话 ,但 张 三 填 写 的 公司 和 李 四 填 写 的 公司 
完全 不 一 样 ,这 就 成 了 一 个 风险 点 ,需要 审核 人 员 格 外 注意 ,如 图 6. 25 所 示 。 
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6.25 不 一 致 性 验证 


再 比如 ,借款 人 说 跟 张 三 是 朋友 关系 , 跟 李 四 是 父子 关系 。 当 我 们 试图 把 借款 人 的 信 
息 添 加 到 知识 图 谱 里 的 时 候 ,“ 一 致 性 验证 ”引擎 会 触发 。 引 擎 首先 会 去 读 取 张 三 和 李 四 
的 关系 ,从 而 去 验证 这 个 “三 角 关系 ”是 否 正确 。 很 显然 ,朋友 的 朋友 不 是 父子 关系 ,所 以 
存在 着 明显 的 不 一 致 性 ,如 图 6. 26 所 示 。 
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图 6.26 存在 着 明显 的 不 一 致 性 


不 一 致 性 验证 涉及 知识 的 推理 。 通 俗 地 讲 ,知识 的 推理 可 以 理解 成 “链接 预测 ”, 也 就 
是 从 已 有 的 关系 图 谱 里 推导 出 新 的 关系 或 链接 。 比 如 在 上 面 的 例子 ,假设 张 三 和 李 四 是 
朋友 关系 ,而 且 张 三 和 借款 人 也 是 朋友 关系 , 那 我 们 可 以 推理 出 借款 人 和 李 四 也 是 朋友 
关系 

3. 组 团 欺 诈 

相 比 虚假 身份 的 识别 ,组 团 欺 诈 的 挖掘 难度 更 大 。 这 种 组 织 在 非常 复杂 的 关系 网 络 
里 隐藏 着 ,不 容易 被 发 现 。 当 我 们 只 有 把 其 中 隐 含 的 关系 网 络 梳理 清楚 , 才 有 可 能 去 分 析 
并 发 现 其 中 潜在 的 风险 。 知 识 图 谱 , 作 为 天 然 的 关系 网 络 的 分 析 工 具 , 可 以 帮助 我 们 更 容 
易 地 去 识别 这 种 潜在 的 风险 。 举 一 个 简单 的 例子 ,有 些 组 团 欺 诈 的 成 员 会 用 虚假 的 身份 
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去 申请 贷款 ,但 部 分 信息 是 共享 的 。 图 6. 27 大 概 说 明了 这 种 情形 。 从 图 中 可 以 看 出 张 
三 、 李 四 和 王 五 之 间 没有 直接 的 关系 ,但 通过 关系 网 络 我 们 很 容易 看 出 这 三 者 之 间 都 共享 
着 某 一 部 分 信息 ,这 就 让 我 们 马上 联想 到 欺诈 风险 。 虽 然 组 团 欺诈 的 形式 众多 ,但 有 一 点 
值得 肯定 的 是 知识 图 谱 比 其 他 任何 的 工具 都 更 能 提供 更 加 便捷 的 分 析 手 段 。 


图 6.27 组 团 欺诈 


4. 异常 分 析 (Anomaly Detection) 


异常 分 析 是 数据 挖掘 研究 领域 里 比较 重要 的 课题 。 我 们 可 以 把 它 简 单 理解 成 从 给 定 
的 数据 中 找 出 “异常 "点 。 在 应 用 中 ,这 些 * 异 常 ” 点 可 能 会 关联 到 欺诈 。 既 然 知 识 图 谱 可 
以 看 做 是 一 个 图 (Graph) ,知识 图 谱 的 异常 分 析 也 大 都 是 基于 图 的 结构 。 由 于 知识 图 谱 
里 的 实体 类 型 .关系 类 型 不 同 ,异常 分 析 也 需要 把 这 些 额 外 的 信息 考虑 进去 。 大 多 数 基于 
图 的 异常 分 析 的 计算 量 比较 大 ,可 以 选择 做 离线 计算 。 在 应 用 框架 中 ,可 以 把 异常 分 析 分 
为 两 大 类 : 静态 分 析 和 动态 分 析 。 

1) 静态 分 析 

所 谓 的 静态 分 析 , 是 指 给 定 一 个 图 形 结构 和 某 个 时 间 点 ,从 中 去 发 现 一 些 异 常 点 ( 比 
如 有 异常 的 子 图 )。 在 图 6. 28 中 可 以 很 清楚 地 看 到 其 中 五 个 点 的 相互 紧密 度 非常 强 ,可 
能 是 一 个 欺诈 组 织 。 所 以 针对 这 些 异常 的 结构 ,我们 可 以 做 出 进一步 的 分 析 。 

2) 动态 分 析 

所 谓 的 动态 分 析 , 是 指 分 析 其 结构 随时 间 变化 的 趋势 。 我 们 的 假设 是 ,在 短 时 间 内 知 
识 图 谱 结 构 的 变化 不 会 太 大 ,如 果 它 的 变化 很 大 ,就 说 明 可 能 存在 异常 ,需要 进一步 关注 。 
分 析 结 构 随 时 间 的 变化 会 涉及 时 序 分 析 技术 和 图 相似 性 计算 技术 。 有 兴趣 的 读者 可 以 去 
参考 这 方面 的 资料 ,如 图 6. 29 所 示 。 

3) 失 联 客户 管理 

除了 贷 前 的 风险 控制 ,知识 图 谱 也 可 以 在 贷 后 发 挥 其 强大 的 作用 。 比 如 在 贷 后 失 联 
客户 管理 的 问题 上 ,知识 图 谱 可 以 帮助 我 们 挖掘 出 更 多 潜在 的 新 的 联系 人 ,从 而 提高 催收 


SN 
:226 


了 


© © 


图 6.28 静态 分 析 
图 6.29 动态 分 析 


的 成 功率 。 

现实 中 ,不 少 借款 人 在 借款 成 功 后 出 现 不 还 款 现象 ,而 且 玩 “捉迷藏 ”联系 不 上 本 人 。 
即便 试图 去 联系 借款 人 曾经 提供 过 的 其 他 联系 人 ,但 还 是 没有 办 法 联系 到 本 人 。 这 就 进 
入 了 所 谓 的 “ 失 联 ? 状 态 ,使 得 催收 人 员 也 无 从 下 手 。 那 接 下 来 的 问题 是 ,在 失 联 的 情况 
下 ,我 们 有 没有 办 法 去 挖掘 跟 借款 人 有 关系 的 新 的 联系 人 ? 而 且 这 部 分 人 群 并 没有 以 关 
联 联系 人 的 身份 出 现在 我 们 的 知识 图 谱 里 。 如 果 能 够 挖掘 出 更 多 潜在 的 新 的 联系 人 ,就 
会 大 大 地 提高 催收 成 功率 。 举 个 例子 ,在 如 图 6. 30 所 示 的 关系 图 中 ,借款 人 跟 李 四 有 直 
接 的 关系 ,但 我 们 却 联系 不 上 李 四 。 那 有 没有 可 能 通过 2 度 关系 的 分 析 ,预测 并 判断 哪些 
李 四 的 联系 人 可 能 会 认识 借款 人 。 这 就 涉及 图 谱 结构 的 分 析 。 

4) 智能 搜索 及 可 视 化 展示 

基于 知识 图 谱 , 我 们 也 可 以 提供 智能 搜索 和 数据 可 视 化 的 服务 。 智 能 搜索 的 功能 类 
似 于 知识 图 谱 在 Google、 百 度 上 的 应 用 。 也 就 是 说 ,对 于 每 一 个 搜索 的 关键 词 ,我 们 可 以 
通过 知识 图 谱 来 返回 更 丰富 、 更 全 面 的 信息 。 比 如 搜索 一 个 人 的 身份 证 号 ,我 们 的 智能 搜 
索引 擎 可 以 返回 与 这 个 人 相关 的 所 有 历史 借款 记录 、 联 系 人 信息 ,行为 特征 和 每 一 个 实体 
的 标签 (比如 黑 名 单 .同业 等 )。 另 外 ,可 视 化 的 好 处 不 言 而 喻 ,通过 可 视 化 把 复杂 的 信息 
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以 非常 直观 的 方式 呈现 出 来 ,使 得 我 们 对 隐藏 信息 的 来 龙 去 脉 一 日 了 然 。 

5) 精准 营销 

一 个 聪明 的 企业 可 以 比 它 的 竞争 对 手 以 更 为 有 效 的 方式 去 挖掘 其 潜在 的 客户 。 在 互 
联网 时 代 ,营销 手段 多 种 多 样 , 但 不 管 有 多 少 种 方式 ,都 离 不 开 一 个 核心 一 一 分 析 用 户 和 
理解 用 户 。 知 识 图 谱 可 以 结合 多 种 数据 源 去 分 析 实 体 之 间 的 关系 ,从 而 对 用 户 的 行为 有 
更 好 的 理解 。 比 如 一 个 公司 的 市 场 经 理 用 知识 图 谱 来 分 析 用 户 之 间 的 关系 ,去 发 现 一 个 
组 织 的 共同 喜好 ,从 而 可 以 有 针对 性 地 对 某 一 类 人 群 制定 营销 策略 。 只 有 能 更 好 地 ,更深 
入 地 (Deep understanding) 理 解 用 户 的 需求 ,才能 更 好 地 去 做 营销 。 

5. 挑战 

知识 图 谱 在 工业 界 还 没有 形成 大 规模 的 应 用 。 即 便 有 部 分 企业 试图 往 这 个 方向 发 
展 , 但 很 多 仍 处 于 调研 阶段 。 主 要 的 原因 是 很 多 企业 对 知识 图 谱 并 不 了 解 ,或 者 理解 不 
深 。 但 有 一 点 可 以 肯定 的 是 ,知识 图 谱 在 未 来 几 年 内 必 将 成 为 工业 界 的 热门 工具 ,这 也 是 
从 目前 的 趋势 中 很 容易 预测 到 的 。 当 然 ,知识 图 谱 毕 竞 是 一 个 比较 新 的 工具 ,所 以 在 实际 
应 用 中 一 定 会 涉及 或 多 或 少 的 挑战 。 

1) 数据 的 噪声 

首先 ,数据 中 存在 着 很 多 的 噪声 。 即 便 是 已 经 存在 库 里 的 数据 ,我 们 也 不 能 保证 它 有 
100% 的 准确 性 。 在 这 里 主要 从 两 个 方面 说 起 。 

第 一 ,目前 积累 的 数据 本 身 有 错误 ,所 以 这 部 分 错误 数据 需要 纠正 。 最 简单 的 纠正 办 
法 就 是 做 离线 的 不 一 致 性 验证 。 

第 二 ,数据 的 元 余 。 比 如 借款 人 张 三 填 写 公 司 名 字 为 “ 普 惠 ” ,借款 人 李 四 填 写 的 名 字 
为 “ 普 囊 金融 ” ,借款 人 王 五 则 填写 成 “ 普 惠 金融 信息 服务 有 限 公司 ”。 虽 然 这 三 个 人 都 隶 
属于 一 家 公司 ,但 由 于 他 们 填写 的 名 字 不 同 ,计算 机 则 会 认为 他 们 三 个 是 来 自 不 同 的 公 
司 。 那 接 下 来 的 问题 是 ,怎么 从 海量 的 数据 中 找 出 这 些 存 在 歧义 的 名 字 并 将 它们 合并 成 
一 个 名 字 ? 这 就 涉及 自然 语言 处 理 中 的 “ 消 歧 分 析 ” 技 术 , 如 图 6. 31 所 示 。 

2) 非 结 构 化 数据 处 理 能 力 

在 大 数据 时 代 , 很 多 数据 都 是 未 经 处 理 过 的 非 结构 化 数据 ,比如 文本 、` 图 片 .音频 、 视 
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6.31 数据 的 噪声 


频 等 。 特 别 在 互联 网 金融 行业 里 ,我们 往往 会 面 对 大 量 的 文本 数据 。 怎 么 从 这 些 非 结构 
化 数据 里 提取 出 有 价值 的 信息 是 一 件 非 常 有 挑战 性 的 任务 ,这 对 我 们 所 掌握 的 机 器 学 习 、 
数据 挖掘 、 自 然 语言 处 理 能 力 提 出 了 更 高 的 要 求 ,如 图 6. 32 所 示 。 


一 一 机 器 学 习 


视频 一 一 自然 语言 处 理 


一 一 数据 挖掘 








图 6.32 非 结构 化 数据 处 理 能 力 


3) 知识 推理 

推理 能 力 是 人 类 智能 的 重要 特征 ,使 得 我 们 可 以 从 已 有 的 知识 中 发 现 隐 含 的 知识 。 
一 般 的 推理 往往 需要 一 些 规 则 的 支持 。 例 如 “朋友 ”的 “朋友 ”, 可 以 推理 出 “朋友 ”关系 ， 
“父亲 ”的 “父亲 ”可 以 推理 出 “祖父 ”的 关系 。 再 比如 张 三 的 朋友 很 多 也 是 李 四 的 朋友 , 那 
我 们 可 以 推测 张 三 和 李 四 也 很 有 可 能 是 朋友 关系 。 当 然 ,这 里 会 涉及 概率 的 问题 。 当 信 
息 量 特别 多 的 时 候 , 怎 么 把 这 些 信息 (side information) 有 效 地 与 推理 算法 结合 在 一 起 才 
是 最 关键 的 。 常 用 的 推理 算法 包括 基于 逻辑 (Logic) 的 推理 和 基于 分 布 式 表 示 方 法 


人 


(Distributed Representation) 的 推理 。 随 着 深度 学 习 在 人 工 智 能 领域 的 地 位 变 得 越 来 越 
重要 ,基于 分 布 式 表示 方法 的 推理 也 成 为 目前 研究 的 热点 。 如 果 有 兴趣 ,可 以 参考 一 下 这 
方面 目前 的 工作 进展 。 

大 数据 ,小 样本 构建 有 效 的 生态 闭环 是 关键 : 虽然 现在 能 获取 的 数据 量 非常 庞大 ， 
我 们 仍然 面临 着 小 样本 问题 ,也 就 是 样本 数量 少 。 假 设 需要 搭建 一 个 基于 机 器 学 习 的 反 
欺诈 评分 系统 ,那么 首先 需要 一 些 欺 诈 样 本 。 但 实际 上 ,我 们 能 拿 到 的 欺诈 样本 数量 不 
多 ,即便 有 几 百 万 个 贷款 申请 ,最 后 被 标记 为 欺诈 的 样本 很 可 能 也 就 几 万 个 。 这 对 机 器 学 
习 的 建 模 提出 了 更 高 的 挑战 。 每 一 个 欺诈 样本 都 是 以 很 高 昂 的 “代价 ”得 到 的 。 随 着 时 间 
的 推移 ,我 们 必然 会 收集 到 更 多 的 样本 ,但 样本 的 增长 空间 还 是 有 局 限 的 。 这 有 区 别 于 传 
统 的 机 器 学 习 系统 , 比 如 图 像 识 别 , 不 难 拿 到 好 几 十 万 甚至 几 百 万 的 样本 。 

在 这 种 小 样本 条 件 下 ,构建 有 效 的 生态 闭环 尤其 的 重要 。 所 谓 的 生态 闭环 , 指 的 是 构 
建 有 效 的 自 反 馈 系统 使 其 能 够 实时 地 反馈 给 我 们 的 模型 ,并 使 得 模型 不 断 地 自 优化 从 而 
提升 准确 率 。 为 了 搭建 这 种 自学 习 系统 ,我 们 不 仅 要 完善 已 有 的 数据 流 系统 ,而 且 要 深入 
到 各 个 业务 线 ,并 对 相应 的 流程 进行 优化 。 这 也 是 整个 反 欺 诈 环 节 必 要 的 过 程 ,我 们 要 知 
道 整 个 过 程 都 充满 着 博弈 。 所 以 需要 不 断 地 通过 反馈 信号 来 调整 策略 。 


6.8 大 数据 应 用 案例 之 : 数据 告诉 你 ,上 海 的 房子 都 被 
谁 买 走 了 


事情 是 这 样 的 一 一 某 年 月 日 ,学 姐 过 来 找 我 说 :“ 小 团 啊 ,最 近 股 市 风起云涌 变幻 葛 
测 ,我 觉得 还 是 投资 固定 资产 比较 靠 谱 。 可 是 ,我 一 个 外 地 女生 在 上 海 买 得 起 房 吗 ?” 

我 说 :“ 学 姐 你 收入 多 少 ? 我 帮 你 算 算 吧 。” 

学 姐 说 :“ 这 也 太 隐 私 啦 , 可 不 能 随便 告诉 你 ,你 就 从 整体 上 看 一 看 吧 .” 

好 吧 。 为 了 满足 学 姐 这 个 毫 无 诚意 的 无 理 要 求 ,我 只 好 找 出 某 房地产 代理 商 提 供 的 
2014. 7 一 2015. 6 上 海 一 手 房 交易 的 抽样 数据 ,样本 数 大 约 1 万 个 ,数据 字段 包括 房屋 价 
格 和 区 位 信息 、 购 房 者 性 别 及 脱 敏 后 的 身份 证 号 (不 包括 姓名 和 未 4 位 ) 等 。 

既然 不 掌握 学 姐 的 个 人 收入 数据 ,那么 我 们 只 能 从 统计 的 角度 看 看 : 上 海 的 房子 都 
被 谁 买 走 了 呢 ? 

我 们 就 从 购房 者 的 户籍 来 源 、 性 别 . 星 座 年龄 四 个 角度 分 析 一 下 吧 。 

了 Partl: 购房 者 来 源 : 上 海 人 VS 新 上 海 人 

我 们 将 身份 证 号 以 “310” 开 头 的 购房 者 定义 为 “土生 土 长 的 上 海 人 ”, 简 称 * 上 海 人 ”; 
将 其 他 购房 者 ,也 就 是 原 户籍 不 在 上 海 .已 在 上 海 购房 的 人 定义 为 “新 上 海 人 ”。 

从 最 近 一 年 的 数据 来 看 ,购房 者 中 上 海 人 占 比 为 48. 5%, 低 于 新 上 海 人 的 51. 5%。 
也 就 是 说 ,上 海 有 一 半 的 房子 被 原籍 意义 上 的 “外 地 人 ” 买 走 了 。 那 么 ,新 上 海 人 都 来 自 哪 
里 呢 ? 

可 以 看 到 ,各 省 在 沪 购 房 者 人 数 呈 现 明 显 的 以 上 海 为 中 心 向 外 递减 的 圈 层 结构 , 即 距 
离 上 海 越 近 的 地 区 ,来 沪 购 房 者 越 多 。 
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按 地 域 片 区 来 看 ,在 沪 购 房 者 人 数 呈现 出 “华东 二 华中 二 东北 二 华北 二 西北 二 西南 二 
华南 ”的 规律 。 而 在 华东 地 区 ,原籍 江苏 ,安徽 和 浙江 的 购房 者 占据 了 新 上 海 人 总 数 的 
7% 

很 明显 ,来 沪 买房 子 的 新 上 海 人 大 多 来 自 于 上 海 周边 的 城市 。 但 问题 是 ， 

是 不 是 来 自 于 这 些 地 方 的 新 上 海 人 更 热衷 于 买 上 海 的 房子 呢 ? 

为 了 回答 这 个 问题 ,我们 定义 了 各 省 购房 者 的 上 海 买房 指标 I: 

I 二 一 年 中 在 上 海 购 房 的 原籍 在 省 i 的 人 数量 (人 )/ 上 海外 来 人 口中 来 源 地 为 省 i 的 
人 口 数量 (万 人 ) 

买房 比例 最 高 的 居然 是 来 自 东 北 、 华 北 和 新 疆 的 人 ! 而 在 买房 人 数 上 占 优 的 华东 , 买 
房 比例 反而 是 偏 低 的 。 总 体 来 看 : 

新 上 海 人 买房 比例 排列 最 高 top3: 天 津 .辽宁 、 内 蒙古 。 

新 上 海 人 买房 比例 排列 最 低 bottom3: 安徽 .四川 贵 州 。 

我 想 , 大 概 北方 离 上 海 挺 远 ,因此 只 有 实力 强大 ,内心 坚 定 的 北方 人 才 会 来 上 海 发 展 ， 
而 且 来 就 抱 着 “扎根 ?的 信念 :与 之 相 比 , 从 华东 来 上 海 的 人 数量 更 多 .目的 更 多 元 ,经济 实 
力 和 个 人 能 力 差异 也 比较 大 ,因此 拉 低 了 本 省 人 在 上 海 购 房 的 比例 。 


Part2: 购房 者 性 别 : 男性 VS 女性 


从 总 体 来 看 : 

最 近 一 年 的 上 海 购房 者 中 性 别 比 为 147 : 100; 

购房 者 中 ,上 海 人 性 别 比 为 144 : 100; 

购房 者 中 ,新 上 海 人 性 别 比 为 151 : 100。 

显而易见 ,上 海 的 房子 更 多 都 被 男性 买 走 了 。 

可 以 看 到 ,来 自 全 国 大 部 分 地 区 的 购房 者 都 以 男性 居多 ,在 沿海 地 区 更 甚 。 

上 海 购房 者 性 别 比 最 高 原籍 省 top3: 广东 山东、 江苏 。 

上 海 购房 者 性 别 比 最 低 原籍 省 top3: 新 疆 .海南 .宁夏 。 

那么 ,男性 买房 比例 是 不 是 比 女性 更 高 呢 ? 

还 是 用 Partl 中 定义 的 购房 指标 ,我 们 将 购房 性 别 比 与 总 人 口 性 别 比 进 行 比 对 ,计算 
得 到 新 上 海 人 中 男女 购房 指标 分 别 为 8.9 和 5.0。 

没 错 , 就 上 海 而 言 , 男 性 买房 的 比例 也 远 比 女性 更 高 。 

那么 ,这 一 差异 有 没有 地 域 特征 呢 ? 

可 以 看 到 ,全 国 大 部 分 地 区 的 男性 在 上 海 购房 的 比例 都 高 于 女性 , 且 东 部 比 西部 差异 
更 大 。 

新 上 海 人 买房 男性 指标 最 高 top3: 天 津 .辽宁 、 内 蒙古 。 

新 上 海 人 买房 女性 指标 最 高 top3: 北京 .宁夏 河北。 

看 来 买房 子 始终 还 是 大 部 分 男性 的 核心 人 生 任 务 啊 。 


Part3: 购房 者 星座 


接 下 来 ,我 们 又 非常 八卦 地 统计 了 最 近 一 年 在 沪 购 房 者 的 星座 。 各 星座 在 沪 购 房 人 
数 如 图 6. 33 所 示 。 
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天 蝎 天 秤 射手 水 瓶 摩羯 处 女 狮子 巨蟹 白 羊 双鱼 金牛 双子 
图 6.33 各 星座 在 沪 购房 人 数 


可 以 看 到 ,无 论 男女 ,天 蝎 、 天 秤 和 射手 都 稳 居 前 三 甲 。 

难道 说 , 腹 黑 ,优雅 ,热情 可 以 大 大 提高 购房 成 功 概率 ? 等 等 ,这 三 个 星座 从 出 生日 其 
上 不 是 连 着 的 吗 ? 我 好 像 知道 了 什么 …… 

Part4: 购房 者 年 龄 

我 们 算 了 一 下 : 

上 海 人 的 购房 年 龄 平均 数 为 38 一 39 岁 ; 

新 上 海 人 的 购房 年 龄 平均 数 为 35 一 36 岁 。 

也 就 是 说 ,新 上 海 人 购房 比 上 海 人 要 早 三 年 ( 注 : 未 区 分 首 套房 和 换 房 )。 但 如 果 把 
购房 者 分 为 上 海 男 ` 上 海 女 .新 上 海 男 .新 上 海 女 四 个 组 ,并 按 空间 圈 层 比较 的 话 ,会 看 到 
差异 更 加 清晰 。 各 圈 层 购房 者 年 龄 分 布 如 图 6. 34 所 示 。 


购房 者 人 数 
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1 内 环 内 2 内 中 环 。 ”3 中 外 环 。 4 外 环 新 外 环 5 新 外 环 郊 环 6 郊 环 外 
图 6.34 各 圈 层 购房 者 年 龄 分 布 


可 以 看 到 : 
上 海 男 和 新 上 海 男 的 年 龄 随 空间 圈 层 的 变化 趋势 相同 , 且 3 岁 的 年 龄 差异 稳定 存在 。 
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但 值得 注意 的 是 ,市 中 心 女性 购房 者 年 龄 比 男性 要 小 ,而 郊区 女性 购房 者 年 龄 比 男性 
要 大 。 

接 下 来 的 问题 是 : 什么 是 “好 房子 ? 呢 ? 一 千 个 人 心中 有 一 千 个 哈姆雷特 。 为 了 回答 
这 个 问题 ,我 们 不 妨 简单 粗暴 地 认为 市 中 心 的 就 是 好 房子 。 

我 们 仍然 按照 四 组 人 购买 的 房子 的 区 位 进行 统计 ,如 图 6. 35 所 示 。 
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1 内 环 内 2 内 中 环 。 ”3 中 外 环 ”4 外 环 新 外 环 5 新 外 环 郊 环 6 郊 环 外 
图 6.35 各 图 层 购房 者 比例 分 布 
如 图 6. 36 可 知 : 


市 中 心 (内 环 以 内 ) ,上 海 女 志 新 上 海 男 志 新 上 海 女 二 上海 男 ; 

中 心 城区 (外 环 以 内 ) ,新 上 海 男 定 上 海 男 过 新 上 海 女 定 上 海 女 。 

简单 地 说 ,就 是 上 海中 心 城区 的 新 上 海 人 比 上 海 人 更 多 ,更 多 的 好 房子 被 新 上 海 人 买 
走 了 。 

这 是 为 什么 呢 ? 我 猜 可 能 是 由 于 以 下 原因 ， 

从 外 地 来 到 上 海 发 展 , 并 买房 成 为 新 上 海 人 的 ,本 身 就 拥有 较 强 的 个 人 能 力 或 经 济 
实力 。 

上 海 人 只 能 在 上 海 买房 ,个 人 能 力 和 经 济 实力 参差 不 齐 , 因 此 在 市 中 心 和 郊区 都 会 买 
房 (去 其 他 地 方 发 展 的 上 海 人 数量 很 少 , 忽 略 不 计 ) 。 

为 了 印证 这 个 猜想 ,我 又 用 了 新 上 海 人 购房 的 总 价 与 其 原籍 省 的 人 均 GDP 进行 了 比 
较 , 如 图 6.36 所 示 。 

如 图 6. 36 可 知 ,二 者 间 的 正 相 关 的 关系 还 是 比较 明显 的 。 也 就 是 说 , 买 什么 样 的 房 ， 
跟 地 区 和 家 庭 的 经 济 实力 有 着 很 大 的 关系 。 

再 对 性 别 进行 比较 的 话 ,我 们 会 发 现 : 从 市 中 心 向 郊区 ,购房 者 性 别 比 呈 增加 趋势 ， 
也 就 是 说 女性 买房 比 男性 更 靠近 市 中 心 。 这 一 点 在 新 上 海 人 中 更 为 显著 。 

各 圈 层 购 屋 者 性 别 比如 图 6. 37 所 示 。 

数据 来 源 说 明 ， 

(1) 房屋 销售 和 购房 者 数据 来 源 于 同 策 房产 咨询 。 


log10( 房 屋 总 价 ) 





log10( 人 均 GDP) 
图 6.36 原籍 省 人 均 GDP 与 购房 者 的 房屋 总 价 
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1 内 环 内 ”2 内 中 环 3 中 外 环 4 外 环 新 外 环 5 新 外 环 郊 环 6 郊 环 外 
图 6.37 各 圈 层 购房 者 性 别 比 


(2) 其 他 数据 来 源 于 2010 年 上 海 市 人 口 普查 数据 、 上 海 统计 年 鉴 2014 等 。 


习题 与 思考 题 
一 、 选 择 题 
1. 下 列 哪 一 项 不 是 大 数据 提供 的 用 户 交互 方式 ? ( ) 
A. 统计 分 析 和 数据 挖掘 B. 任意 查询 和 分 析 
C. 图 形 化 展示 D. 企业 报表 


2. 关于 大 数据 和 互联 网 ,以 下 哪些 说 法 是 正确 的 ? ( ”)( 多 选 题 ) 
A. 互联 网 的 出 现 使 得 监视 变 得 更 容易 、 成 本 更 低廉 也 更 有 用 处 
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B. 大 数据 不 管 如 何 运用 都 是 我 们 合理 决策 过 程 中 的 有 力 武器 
C. 大 数据 的 价值 不 再 单纯 来 源 于 它 的 基本 用 途 ,而 更 多 源 于 它 的 二 次 利用 
D. 大 数据 时 代 , 很 多 数据 在 收集 的 时 候 并 无 意 用 作 其 他 用 途 , 而 最 终 却 产生 了 很 


多 创新 性 的 用 途 
3. 在 网 络 仆 虫 的 仆 行 策略 中 ,应 用 最 为 基础 的 是 (  )。( 多 选 题 ) 
A. 深度 优先 遍历 策略 B. 广度 优先 遍历 策略 
C. 高 度 优先 遍历 策略 D. 反 向 链接 策略 
E. 大 站 优先 策略 


4. 大 数据 科学 关注 大 数据 网 络 发 展 和 运营 过 程 中 ( ”) 大 数据 的 规律 及 其 与 自然 
和 社会 活动 之 间 的 关系 。 


A. 大 数据 网 络 发 展 和 运营 过 程 B. 规划 建设 运营 管理 
C. 规律 和 验证 D. 发 现 和 验证 
5. 大 数据 的 价值 是 通过 数据 共享 ”) 后 获取 最 大 的 数据 价值 。 
A. 算法 共享 B. 共享 应 用 C. 数据 交换 D. 交叉 复 用 


6. IBM 大 数据 平台 和 应 用 程序 框架 ,(  ) 以 经 济 高 效 的 方式 分 析 PB 级 的 结构 化 
和 非 结 构 化 信息 。 
A. 流 计算 B. Hadoop C. 数据 仓库 D. 语 境 搜索 
7. 临床 决策 支持 系统 通过 电子 病历 、 医 学 指导 的 比较 等 提高 手术 质量 ,降低 错误 治 
疗 和 ( )。 
A. 医疗 事故 B. 病 患 投诉 C. 民事 诉讼 D. 手术 费用 
8.《 数 据 新 闻 学 手册 的 作者 们 认为 ,通过 数据 的 使 用 ,记者 工作 的 重点 从 “第 一 个 报 
道 者 "转化 成 为 对 特定 事件 的 影响 的 ( 。”)。 
A. 拍摄 者 B. 知情 者 C. 记录 者 D. 阐释 者 
9. 通过 ( 。”) 和 展示 数据 背后 的 ( ) ,运用 丰富 的 .具有 互动 性 的 可 视 化 手段 , 数 
据 新 闻 学 成 为 新 闻 学 作为 一 门 新 的 分 支 进入 主流 媒体 , 即 用 数据 报道 新 闻 。 


A. 数据 收集 B. 数据 挖掘 C. 真相 D. 关联 与 模式 
10. 什么 是 KDD? ( 

A. 数据 挖掘 与 知识 发 现 B. 领域 知识 发 现 

C. 文档 知识 发 现 D. 动态 知识 发 现 
-、 问 答题 
. 简 述 数据 库 与 信息 检索 技术 的 比较 。 


. 解释 WEB 搜索 引擎 工作 原理 。 

. 大 数据 索引 和 查询 是 如 何 进行 的 ? 
. 概述 数据 可 视 化 定义 与 应 用 。 

. 概述 知识 图 谱 的 概念 和 应 用 。 


an 必 ep 性 
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7.1 大 数据 的 分 析 及 应 用 


7.1.1 数据 处 理 和 分 析 的 发 展 


1. 传统 方式 的 数据 处 理 和 分 析 
传统 上 ,为 了 特定 分 析 目 的 进行 的 数据 处 理 都 是 基于 相当 静态 的 蓝图 。 通 过 常规 的 
业务 流程 ,企业 通过 CRM ERP 和 财务 系统 等 应 用 程序 ,创建 基于 稳定 数据 模型 的 结构 
化 数据 。 数 据 集成 工具 用 于 从 企业 应 用 程序 和 事务 型 数据 库 中 提取 、 转 换 和 加 载 数据 到 
一 个 临时 区 域 ,在 这 个 临时 区 域 进 行 数据 质量 检查 和 数据 标准 化 ,数据 最 终 被 模式 化 到 整 
齐 的 行 和 表 。 这 种 模型 化 和 清洗 过 的 数据 被 加 载 到 企业 级 数据 仓库 。 这 个 过 程 会 周期 性 
发 生 , 如 每 天 或 每 周 ,有 时 会 更 频繁 。 数 据 处 理 分 析 资 料 的 流程 如 图 7. 1 所 示 。 
数据 分 析 流 各 
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图 7.1 传统 的 数据 处 理 / 分 析 资 料 


在 传统 数据 仓库 中 ,数据 仓库 管理 员 创建 计划 ,定期 计算 仓库 中 的 标准 化 数据 ,并 将 
产生 的 报告 分 配 到 各 业务 部 门 。 他 们 还 为 管理 人 员 创 建 仪表 板 和 其 他 功能 有 限 的 可 视 化 
工具 。 

同时 ,业务 分 析 师 利用 数据 分 析 工 具 在 数据 仓库 进行 高 级 分 析 , 或 者 通常 情况 下 ,由 
数据 量 的 限制 ,将 样本 数据 导 和 人 到 本 地 数据 库 中 。 非 专业 用 户 通 过 前 端的 商业 智能 工 
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具 (SAP 的 BusinessObjects 和 IBM 的 Cognos) 对 数据 仓库 进行 基础 的 数据 可 视 化 和 有 
限 的 分 析 。 传 统 数 据 仓库 的 数据 量 很 少 超过 几 TB, 因 为 大 容量 的 数据 会 占用 数据 仓库 
资源 并 且 降 低 性 能 。 

2. 大 数据 处 理 和 分 析 的 新 方法 

存在 多 种 方法 处 理 和 分 析 大 数据 ,但 多 数 都 有 一 些 共同 的 特点 。 即 利用 硬件 的 优势 ， 
使 用 扩展 的 、 并 行 的 处 理 技术 ,采用 非 关 系 型 数据 存储 处 理 非 结构 化 和 半 结 构 化 数据 ,并 
对 大 数据 运用 高 级 分 析 和 数据 可 视 化 技术 ,向 终端 用 户 传达 见解 。 

毋庸 置疑 ,现在 大 数据 平台 和 大 数据 分 析 工具 日 益 普 及 ,作用 是 可 以 帮助 企业 收集 和 
分 析 数 据 ,好 处 是 可 以 寻找 有 价值 的 商业 信息 和 洞察 ,以 改进 产品 与 服务 。 大 数据 分 析 工 
具 用 于 分 析 数 据 , 可 以 开发 预测 模型 (predictive model) 和 规范 模型 (prescriptive model) 。 
在 现代 化 的 业务 流程 应 用 中 ,嵌入 这 些 模 型 能 够 提高 企业 的 生产 力 和 价值 。 同 时 ,使 用 大 
数据 分 析 工 具 可 以 轻松 进行 扩展 ,获取 通常 在 大 数据 平台 才 有 的 可 用 资源 。 

其 实 ,大 数据 分 析 工 具 经 常 提 供 的 技术 ,一 般 而 言 ,都 不 算 什 么 新 鲜 事 物 。 只 是 到 最 
近 这 几 年 ,数据 挖掘 算法 的 强大 功能 才 被 主流 商业 用 户 采用 , 它 可 以 结合 海量 数据 .多 种 
数据 类 型 和 不 同 的 数据 结构 ,对 数据 集 进行 预测 性 分 析 (predictive analyses) 和 规范 性 分 
析 (prescriptive analyses)。 

但 在 用 户 看 来 ,大 数据 分 析 仍 然 是 一 种 新 兴 的 企业 级 功能 ,要 想 靠 它 达 到 预期 收益 ， 
一 定 存 在 风险 ,还 要 投入 很 大 的 时 间 成 本 。 所 以 ,在 决定 投身 之 前 ,一 定 要 和 弄 清楚 怎样 判 
断 什 么 样 的 大 数据 分 析 适 合 你 的 企业 ? 


7.1.2 大 数据 分 析 面 对 的 数据 类 型 


有 一 个 概念 可 以 很 清楚 地 区 分 大 数据 分 析 和 其 他 形式 的 分 析 : 要 分 析 的 数据 有 多 大 
的 数据 量 ? 数据 规模 如 何 ? 数据 是 否 呈 多 样 性 ?在 过 去 ,通常 是 从 非常 大 的 数据 库 中 提 
取样 本 数据 集 ,建立 分 析 模 型 ,然后 通过 测试 再 调整 的 过 程 加 以 改进 。 而 现在 , 随 着 计算 
平台 能 够 提供 可 扩展 的 存储 和 计算 能 力 , 可 分 析 的 数据 量 几乎 不 再 受 任何 限制 。 这 意味 
着 ,实时 预测 性 分 析 和 访问 大 量 正确 的 数据 可 以 帮助 企业 改善 业绩 。 这 样 的 机 会 取决 于 
企业 能 否 整合 和 分 析 不 同类 型 大 数据 。 以 下 四 大 类 数据 就 是 大 数据 要 分 析 的 数据 类 型 。 

1. 交易 数据 (Transaction data) 

大 数据 平台 能 够 获取 时 间 跨 度 更 大 、 更 海量 的 结构 化 交易 数据 ,这 样 就 可 以 对 更 广泛 
的 交易 数据 类 型 进行 分 析 , 不 仅仅 包括 POS 或 电子 商务 购物 数据 ,还 包括 行为 交易 数据 ， 
例如 Web 服务 器 记录 的 互联 网 点 击 流 数据 日 志 。 

2， 人 为 数据 (Human-generated data) 


非 结 构 数据 广泛 存在 于 电子 邮件 文档, 图片, 音频 ,视频 ,以 及 通过 博客 .维基 ,尤其 是 
社交 媒体 产生 的 数据 流 。 这 些 数据 为 使 用 文本 分 析 功能 进行 分 析 提供 了 丰富 的 数据 源 。 


3. 移动 数据 (Mobile data) 
能 够 上 网 的 智能 手机 和 平板 越 来 越 普遍 。 这 些 移动 设备 上 的 App 都 能 够 追踪 和 沟 
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通 无 数 事件 ,从 App 内 的 交易 数据 (如 搜索 产品 的 记录 事件 ) 到 个 人 信息 资料 或 状态 报告 
事件 (如 地 点 变更 即 报告 一 个 新 的 地 理 编码 ) 。 


4. 机 器 和 传感器 数据 (Machine and sensor data) 


机 器 和 传感器 数据 包括 功能 设备 创建 或 生成 的 数据 ,例如 智能 电表 、 智 能 温度 控制 
器 ,工厂 机 器 和 连接 互联 网 的 家 用 电器 生成 的 数据 。 这 些 设 备 可 以 配置 为 与 互联 网 络 中 
的 其 他 结 点 通信 ,还 可 以 自动 向 中 央 服 务 器 传输 数据 ,这 样 就 可 以 对 数据 进行 分 析 。 机 器 
和 传感器 数据 是 来 自 新 兴 的 物 联网 (IoT) 所 产生 的 主要 例子 。 来 自 物 联网 的 数据 可 以 用 
于 构建 分 析 模 型 ,连续 监测 预测 性 行为 (如 当 传 感 器 值 表示 有 问题 时 进行 识别 ) ,提供 规定 
的 指令 (如 警示 技术 人 员 在 真正 出 问题 之 前 检查 设备 ) 。 


7.1.3 大 数据 分 析 与 处 理 方法 


越 来 越 多 的 应 用 涉及 大 数据 ,这 些 大 数据 的 属性 ,包括 数量 .速度 .多 样 性 等 等 都 呈现 了 
大 数据 不 断 增 长 的 复杂 性 ,所 以 ,大 数据 的 分 析 方法 在 大 数据 领域 就 显得 尤为 重要 ,可 以 说 
是 判定 最 终 信息 是 否 有 价值 的 决定 性 因素 。 基 于 此 ,大 数据 分 析 的 方法 理论 有 哪些 呢 ? 

1. 大 数据 分 析 的 五 个 基本 方面 

1) 预测 性 分 析 能 力 (Predictive Analytic Capabilities) 

数据 挖掘 可 以 让 分 析 员 更 好 的 理解 数据 ,而 预测 性 分 析 可 以 让 分 析 员 根据 可 视 化 分 
析 和 数据 挖掘 的 结果 做 出 一 些 预测 性 的 判断 。 

2) 数据 质量 和 数据 管理 (Data Quality and Master Data Management) 

数据 质量 和 数据 管理 是 一 些 管理 方面 的 最 佳 实践 。 通 过 标准 化 的 流程 和 工具 对 数据 
进行 处 理 可 以 保证 一 个 预先 定义 好 的 高 质量 的 分 析 结 果 。 

3) 可 视 化 分 析 (Analytic Visualizations) 

不 管 是 对 数据 分 析 专家 还 是 普通 用 户 ,数据 可 视 化 都 是 数据 分 析 工 具 最 基本 的 要 求 。 
可 视 化 可 以 直观 地 展示 数据 ,让 数据 自己 说 话 , 让 观众 听 到 结果 。 

4) 语义 引擎 (Semantic Engines) 

我 们 知道 由 于 非 结构 化 数据 的 多 样 性 带 来 了 数据 分 析 的 新 的 挑战 ,我 们 需要 一 系列 
的 工具 去 解析 提取、 分 析 数 据 。 语 义 引擎 需要 被 设计 成 能 够 从 “文档 ?中 智能 提取 信息 。 

5) 数据 挖掘 算法 (Data Mining Algorithms) 

可 视 化 是 给 人 看 的 ,数据 挖掘 就 是 给 机 器 看 的 。 集 群 分 割 、 孤 立 点 分 析 还 有 其 他 的 
算法 让 我 们 深入 数据 内 部 ,挖掘 价值 。 这 些 算法 不 仅 要 处 理 大 数据 的 量 ,也 要 处 理 大 数据 
的 速度 。 

假如 大 数据 真 的 是 下 一 个 重要 的 技术 革新 ,我 们 最 好 把 精力 关注 在 大 数据 能 给 我 们 
带 来 的 好 处 ,而 不 仅仅 是 挑战 。 


7.1.4 数据 分 析 的 步骤 


什么 是 数据 分 析 ? 数据 分 析 是 用 适当 的 统计 分 析 方 法 对 收集 来 的 大 量 数据 进行 分 
析 ,将 它们 加 以 汇 理解 并 消化 ,以 求 最 大 化 地 开发 数据 的 功能 ,发 挥 数 据 的 作用 。 数 据 分 
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析 的 目的 ? 把 隐藏 在 一 大 批 看 似 杂 乱 无 章 的 数据 背后 的 信息 集中 和 提炼 出 来 ,总 结 出 研 
究 对 象 的 内 在 规律 。 

1. 数据 分 析 的 目的 

把 隐藏 在 一 大 批 看 似 杂乱 无 章 的 数据 背后 的 信息 集中 和 提炼 出 来 ,总 结 出 研究 对 象 


的 内 在 规律 。 


数据 分 析 主 要 有 三 大 作用 : 现状 分 析 、 原 因 分 
析 、 预 测 分 析 , 分 别 反映 了 数据 分 析 的 描述 性 、 探 索 | 描述 性 探索 性 验证 性 
性 和 验证 性 ,如 图 7.2 所 示 。 


3. 数据 分 析 的 六 部 曲 
数据 分 析 流程 主要 分 为 六 个 步骤 ,如 图 7.3 所 示 。 
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图 7.2 数据 分 析 的 三 大 作用 
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第 三 方 数据 统计 工具 





图 7.3 数据 分 析 流程 的 六 个 步骤 


1) 明确 目的 和 思路 

梳理 分 析 思 路 ,并 搭建 分 析 框 架 , 把 分 析 目 的 分 解 成 若干 个 不 同 的 分 析 要 点 , 即 如 何 
具体 开展 数据 分 析 , 需 要 从 哪 几 个 角度 进行 分 析 , 采 用 哪些 分 析 指标 (各 类 分 析 指 标 需 合 
理 搭配 使 用 ) 。 同 时 ,确保 分 析 框架 的 体系 化 和 逻辑 性 。 

2) 数据 收集 

一 般 数据 来 源 于 四 种 方式 : 数据 库 .第 三 方 数据 统计 工具 ,专业 的 调研 机 构 的 统计 年 
鉴 或 报告 (如 艾 瑞 资讯 ) 市场 调 查 。 

对 于 数据 的 收集 需要 预先 做 埋 点 ,在 发 布 前 一 定 要 经 过 谨慎 的 校 验 和 测试 ,因为 一 旦 
版 本 发 布 出 去 而 数据 采集 出 了 问题 ,就 获取 不 到 所 需要 的 数据 ,影响 分 析 效 果 。 

3) 数据 处 理 

数据 处 理 主要 包括 数据 清洗 、 数 据 转 化 数据 提取 ,数据 计算 等 处 理 方法 ,将 各 种 原始 
数据 加 工 成 为 产品 经 理 需要 的 直观 的 可 看 数据 。 
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4) 数据 分 析 

数据 分 析 是 用 适当 的 分 析 方法 及 工具 ,对 处 理 过 的 数据 进行 分 析 , 提 取 有 价值 的 信 
息 ,形成 有 效 结论 的 过 程 。 

常用 的 数据 分 析 工 具 , 掌 握 Excel 的 数据 透视 表 , 就 能 解决 大 多 数 的 问题 。 需 要 的 
话 ,可 以 再 有 针对 性 的 学 习 SPSS、SAS 等 。 

数据 挖掘 是 一 种 高 级 的 数据 分 析 方法 ,侧重 解决 四 类 数据 分 析 问题 : 分 类 、 聚 类 、 关 
联 和 预测 ,重点 在 寻找 模式 与 规律 。 

5) 数据 展现 

一 般 情况 下 ,数据 是 通过 表格 和 图 形 的 方式 来 呈现 的 。 常 用 的 数据 图 表 包 括 饼 图 、 柱 
形 图 ,条 形 图 ,折线 图 ,气泡 图 . 散 点 图 ,雷达 图 等 。 进 一 步 加 工整 理 变 成 我 们 需要 的 图 形 ， 
如 人 金字塔 图 ,和 矩阵 图 、 漏 斗 图 , 帕 雷 托 图 等 。 数 据 展现 的 图 表 如 图 7.4 所 示 。 
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图 7.4 数据 展现 的 图 表 


一 般 能 用 图 说 明 问 题 的 就 不 用 表格 ,能 用 表 说 明 问 题 的 就 不 用 文字 。 

图 表 制 作 的 五 个 步骤 如 下 : 

(1) 确定 要 表达 主题 ; 

(2) 确定 哪 种 图 表 最 适合 ; 

(3) 选择 数据 制作 图 表 ; 

(4) 检查 是 否 真实 反映 数据 ，; 

(5) 检查 是 否 表达 观点 。 

6) 报告 撰写 

一 份 好 的 数据 分 析 报告 ,首先 需要 有 一 个 好 的 分 析 框架 ,并 且 图 文 并 茂 . 层 次 明晰 ,能 
够 让 阅读 者 一 目 了 然 。 结 构 清晰 、 主 次 分 明 可 以 使 阅读 者 正确 理解 报告 内 容 ; 图 文 并 茂 ， 
可 以 令 数 据 更 加 生动 活泼 ,提高 视觉 冲击 力 ,有 助 于 阅读 者 更 形象 、 直 观 地 看 清楚 问题 和 
结论 ,从 而 产生 思考 。 
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好 的 数据 分 析 报 告 需要 有 明确 的 结论 ,建议 或 解决 方案 。 

4. 数据 分 析 的 四 大 误区 

(1) 分 析 目 的 不 明确 ,为 了 分 析 而 分 析 。 

(2) 缺乏 行业 、 公 司 业 务 认 知 ,分 析 结 果 偏离 实际 。 数 据 必须 和 业务 结合 才 有 意义 。 
摸 清楚 所 在 产业 链 的 整个 结构 ,对 行业 的 上 游 和 下 游 的 经 营 情况 有 大 致 的 了 解 ,再 根据 业 
务 当 前 的 需要 ,制定 发 展 计划 , 归 类 出 需要 整理 的 数据 。 同 时 ,熟悉 业务 才能 看 到 数据 背 
后 隐藏 的 信息 。 

(3) 为 了 方法 而 方法 ,为 了 工具 而 工具 ,只 要 能 解决 问题 的 方法 和 工具 就 是 好 的 方法 
和 工具 。 

(4) 数据 本 身 是 客观 的 ,但 被 解读 出 来 的 数据 是 主观 的 。 同 样 的 数据 由 不 同 的 人 分 
析 很 可 能 得 出 完全 相反 的 结论 ,所 以 一 定 不 能 提前 带 着 观点 去 分 析 。 


7.1.5 大 数据 分 析 应 用 
1. 大 数据 分 析 应 用 场景 


假如 以 下 应 用 场景 听 上 去 那么 像 你 所 在 的 企业 ,你 可 要 认真 开始 考虑 大 数据 分 析 工 
具 , 这 将 是 一 项 合理 的 投资 ! 

1) 客户 分 析 (Customer analytics) 

这 包括 分 析 客 户 的 信息 资料 ,行为 和 特点 到 开发 模型 ,对 客户 进行 细 分 、 预 测 流失 以 
及 提供 帮助 挽留 客户 的 下 一 个 最 好 报价 。 

2) 营销 分 析 (Sales and marketing analytics) 

有 两 种 营销 用 例 。 第 一 种 是 使 用 营销 模型 ,改进 面向 客户 的 应 用 程序 ,更 好 地 向 客户 
提供 推荐 。 例 如 ,更 好 地 识别 交叉 销售 和 追加 销售 机 会 ,减少 放弃 的 购物 车 ,总 体 提升 集 
成 推荐 引擎 的 准确 性 。 第 二 种 更 具 反 思 性 ,因为 它 是 为 了 展示 营销 部 门 过 程 和 活动 的 表 
现 ,并 建议 进行 调整 ,以 优化 绩效 。 例 如 ,分 析 哪 个 活动 解决 了 确认 群体 的 需求 ,或 激励 活 
动 付 诸 行 动 的 成 功率 。 

3) 社交 媒体 分 析 (Social media analytics) 

通过 不 同 社交 媒体 渠道 生成 的 内 容 为 分 析 客 户 情感 和 和 与 情 监督 提供 了 丰富 的 资料 。 

4) 网 络 安全 (Cyber security) 

大 规模 网 络 安全 事件 (如 对 美国 零售 商 Target、Sony 的 网 络 攻击 ) 的 发 生 , 让 企业 越 
来 越 意识 到 网 络 攻 击发 生 时 快速 识别 的 重要 性 。 识 别 潜在 的 攻击 包括 建立 分 析 模 型 , 监 
测 大 量 网 络 活动 数据 和 相应 的 访问 行为 ,以 识别 可 能 进行 人 侵 的 可 疑 模式 。 

5) 设备 管理 (Plant and facility management) 

随 着 越 来 越 多 的 设备 和 机 器 能 够 与 互联 网 相连 ,企业 能 够 收集 和 分 析 传感器 数据 流 ， 
包括 连续 用 电 、 温 度 .湿度 和 污染 物 颗粒 等 无 数 潜在 变量 。 模 型 还 可 以 预测 设备 故障 , 安 
排 预 防 性 的 维护 ,以 确保 项 目 正常 进行 ,不 中 断 。 

6) 管道 管理 (Pipeline management) 


越 来 越 多 的 能 源 管道 具有 传感器 和 通信 功能 。 连 续 的 传感器 数据 可 以 用 来 分 析 本 地 
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和 全 球 性 问题 ,表示 是 否 需要 引起 注意 或 进行 维护 。 

7) 供应 链 和 渠道 分 析 (Supply chain and channel analytics) 

通过 对 仓库 库存 .POS 交易 和 多 种 渠道 的 运输 (如 陆运 、 铁 路 海运) 进行 分 析 , 可 建 
立 预 测 分 析 模 型 ,有 效 帮 助 预先 补 货 ,制定 库存 管理 策略 ,管理 物流 ,以 及 因 延 迟 危 及 及 时 
交 货 时 对 线路 进行 优化 并 发 送 通知 。 

8) 价格 优化 (Price optimization) 

零售 商 希 望 最 大 限度 地 提高 产品 销售 的 整体 盈利 ,建立 的 分 析 模 型 可 以 结合 不 同 种 
类 的 数据 流 ,包括 竞争 对 手 的 价格 、 跨 不 同 地 域 的 销售 交易 数据 (以 查看 需求 ), 以 及 生产 、 
库存 和 供应 链 的 信息 (以 监测 供 货 )。 这 样 的 模型 可 以 动态 地 调整 产品 价格 : 当 供不应求 
时 ,或 竞争 对 手 没 货 时 ,价格 上 涨 ; 当 因 季 节 变 化 需 清 理 库 存 时 ,价格 下 调 。 

9) 欺诈 行为 检测 (Fraud detection) 

身份 盗用 事件 不 断 增长 , 随 之 而 来 的 是 欺诈 行为 和 交易 的 不 断 增长 。 金 融 机 构 对 上 
亿 条 的 交易 数据 进行 分 析 , 以 识别 欺诈 行为 模式 。 这 样 的 分 析 模 型 还 可 以 在 潜在 欺诈 交 
易 可 能 发 生 时 ,向 用 户 发 送 警示 。 

所 有 这 些 应 用 场景 都 具有 相似 的 特点 , 即 分 析 涉 及 结构 化 和 非 结构 化 数据 ,被 访问 的 
数据 或 数据 流 来 自 不 同 来 源 , 以 及 数据 量 可 能 巨大 。 反 之 ,对 数据 进行 分 析 可 以 建立 分 析 
模型 ,用 于 实时 识别 来 自 同一 数据 源 和 数据 流 的 模式 。 


2. 大 数据 分 析 技 术 


让 Hadoop 和 其 他 大 数据 技术 如 此 引 人 注 目的 部 分 原因 是 ,它们 让 企业 找到 问题 的 
答案 ,而 在 此 之 前 企业 甚至 不 知道 问题 是 什么 。 这 可 能 会 产生 引出 新 产品 的 想法 ,或 者 帮 
助 确定 改善 运营 效率 的 方法 。 不 过 ,也 有 一 些 已 经 明确 的 大 数据 用 例 ,无 论 是 互联 网 巨头 
如 Google、Facebook 和 LinkedIn ,还 是 更 多 的 传统 企业 。 

1) 推荐 引擎 

网 络 资源 和 在 线 零售 商 使 用 Hadoop 根据 用 户 的 个 人 资料 和 行为 数据 匹配 和 推荐 用 
户 、 产 品 和 服务 。LinkedIn 使 用 此 方法 增强 其 "你 可 能 认识 的 人 ”这 一 功能 ,而 亚马逊 利 
用 该 方法 为 网 上 消费 者 推荐 相关 产品 。 

2) 情感 分 析 

Hadoop 与 先进 的 文本 分 析 工具 结合 ,分 析 社会 化 媒体 和 社交 网 络 发 布 的 非 结 构 化 
的 文本 ,包括 Tweets 和 Facebook, 以 确定 用 户 对 特定 公司 、 品 牌 或 产品 的 情绪 。 分 析 既 
可 以 专注 于 宏观 层面 的 情绪 ,也 可 以 细 分 到 个 人 用 户 的 情绪 。 

3) 风险 建 模 

财务 公司 ,银行 等 公司 使 用 Hadoop 和 下 一 代数 据 仓 库 分 析 大 量 交 易 数据 ,以 确定 
金融 资产 的 风险 ,模拟 市 场 行为 为 潜在 的 “假设 ”方案 做 准备 ,并 根据 风险 为 潜在 客户 
拘 逆 

4) 欺诈 检测 

金融 公司 .零售 商 等 使 用 大 数据 技术 将 客户 行为 与 历史 交易 数据 结合 来 检测 欺诈 行 
为 。 例 如 ,信用 卡 公司 使 用 大 数据 技术 识别 可 能 的 被 盗 卡 的 交易 行为 。 
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5) 营销 活动 分 析 

各 行业 的 营销 部 门 长 期 使 用 技术 手段 监测 和 确定 营销 活动 的 有 效 性 。 大 数据 让 营销 
团队 拥有 更 大 量 的 越 来 越 精细 的 数据 ,如 点 击 流 数 据 和 呼叫 详情 记录 数据 ,以 提高 分 析 的 
准确 性 。 

6) 客户 流失 分 析 

企业 使 用 Hadoop 和 大 数据 技术 分 析 客 户 行为 数据 并 确定 分 析 模 型 ,该 模型 指出 哪 
些 客户 最 有 可 能 流向 存在 竞争 关系 的 供应 商 或 服务 商 。 企 业 就 能 采取 最 有 效 的 措施 挽留 
即将 流失 客户 。 

7) 社交 图 谱 分 析 

Hadoop 和 下 一 代数 据 仓库 相 结合 ,通过 挖掘 社交 网 络 数据 ,可 以 确定 社交 网 络 中 哪 
些 客户 对 其 他 客户 产生 最 大 的 影响 力 。 这 有 助 于 企业 确定 其 “最 重要 ”的 客户 ,不 总 是 那 
些 购买 最 多 产品 或 花 最 多 钱 的 ,而 是 那些 最 能 够 影响 他 人 购买 行为 的 客户 。 

8) 用 户 体验 分 析 

面向 消费 者 的 企业 使 用 Hadoop 和 其 他 大 数据 技术 将 之 前 单一 客户 互动 渠道 (如 呼 
叫 中 心 . 网 上 聊天 、 微 博 等 ) 数 据 整合 在 一 起 ,以 获得 对 客户 体验 的 完整 视图 。 这 使 企业 能 
够 了 解 客户 交互 渠道 之 间 的 相互 影响 ,从 而 优化 整个 客户 生命 周期 的 用 户 体验 。 

9) 网 络 监控 

Hadoop 和 其 他 大 数据 技术 被 用 来 获取 、 分 析 和 显示 来 自 服务 器 、 存 储 设备 和 其 他 IT 
硬件 的 数据 ,使 管理 员 能 够 监视 网 络 活动 .诊断 瓶颈 等 问题 。 这 种 类 型 的 分 析 , 也 可 应 用 
到 交通 网 络 , 当 然 也 可 以 应 用 到 其 他 网 络 。 

10) 研究 与 发 展 

有 些 企业 (如 制药 商 ) 使 用 Hadoop 技术 进行 大 量 文本 及 历史 数据 的 研究 ,以 协助 新 
产品 的 开发 。 

当然 ,上 述 这 些 都 只 是 大 数据 用 例 的 举例 。 事实 上 ,在 所 有 企业 中 大 数据 最 引 人 注 目 
的 用 例 可 能 尚未 被 发 现 。 这 就 是 大 数据 的 希望 。 


7.2 数据 挖掘 技术 


数据 挖掘 (Data Mining, DM) 又 称 数据 库 中 的 知识 发 现 (Knowledge Discover in 
Database,KDD) ,是 目前 人 工 智能 和 数据 库 领域 研究 的 热点 问题 ,所 谓 数据 挖掘 ,是 指 从 
数据 库 的 大 量 数据 中 揭示 出 隐 含 的 .先前 未 知 的 并 有 潜在 价值 的 信息 的 非 平 凡 过程 。 数 
据 挖掘 是 一 种 决策 支持 过 程 , 它 主要 基于 人 工 智能 、 机 器 学 习 、 模 式 识 别 、. 统 计 学 ,数据库 、 
可 视 化 技术 等 ,高 度 自动 化 地 分 析 企 业 的 数据 ,做 出 归纳 性 的 推理 ,从 中 挖掘 出 潜在 的 模 
式 ,帮助 决策 者 调整 市 场 策略 ,减少 风险 ,做 出 正确 的 决策 。 


7.2.1 数据 挖掘 的 定义 
1. 技术 上 的 定义 及 含义 
数据 挖掘 (Data Mining) 就 是 从 大 量 的 ,不 完全 的 有 噪声 的 、 模 糊 的 、 随 机 的 实际 应 
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用 数据 中 ,提取 隐 含 在 其 中 的 、 人 们 事先 不 知道 的 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 
这 个 定义 包括 好 几 层 含义 : 数据 源 必须 是 真实 的 ,大 量 的 、 含 噪声 的 ;发 现 的 是 用 户 感 兴 
趣 的 知识 ;发 现 的 知识 要 可 接受 、 可 理解 ,可 运用 ;并 不 要 求 发现 放 之 四 海 皆 准 的 知识 , 仅 
支持 特定 的 发 现 问题 。 

与 数据 挖掘 相近 的 同义词 有 数据 融合 、 人 工 智 能 、 商 务 智能 ,模式 识别 ,机 器 学 习 , 知 
识 发 现 , 数 据 分 析 和 决策 支持 等 。 

从 广义 上 理解 ,数据 ,信息 也 是 知识 的 表现 形式 ,但 是 人 们 更 把 概念 .规则 ,模式 ,规律 
和 约束 等 看 作 知 识 。 人 们 把 数据 看 作 是 形成 知识 的 源泉 ,好 像 从 矿石 中 采矿 或 淘金 一 样 。 
原始 数据 可 以 是 结构 化 的 ,如 关系 数据 库 中 的 数据 ;也 可 以 是 半 结 构 化 的 ,如 文本 、 图 形 和 
图 像 数 据 ;甚至 是 分 布 在 网 络 上 的 异 构 型 数据 。 发 现 知识 的 方法 可 以 是 数学 的 ,也 可 以 是 
非 数 学 的 ;可 以 是 演绎 的 ,也 可 以 是 归纳 的 。 发 现 的 知识 可 以 被 用 于 信息 管理 ,查询 优化 、 
决策 支持 和 过 程控 制 等 ,还 可 以 用 于 数据 自身 的 维护 。 

因此 ,数据 挖掘 是 一 门 交叉 学 科 , 它 把 人 们 对 数据 的 应 用 从 低层 次 的 简单 查询 ,提升 
到 从 数据 中 挖掘 知识 ,提供 决策 支持 。 在 这 种 需求 的 牵引 下 ,汇聚 了 不 同 领域 的 研究 者 ， 
尤其 是 数据 库 技 术 . 人 工 智 能 技术 ,数理 统计 、 可 视 化 技术 ,并行 计算 等 方面 的 学 者 和 工程 
技术 人 员 ,投身 到 数据 挖掘 这 一 新 兴 的 研究 领域 ,形成 新 的 技术 热点 。 

这 里 所 说 的 知识 发 现 , 不 是 要 求 发 现 放 之 四 海 而 丝 准 的 真理 ,也 不 是 要 去 发 现 居 新 的 
自然 科学 定理 和 纯 数学 公式 ,更 不 是 什么 机 器 定理 证 明 。 实 际 上 ,所 有 发 现 的 知识 都 是 相 
对 的 ,是 有 特定 前 提 和 约束 条 件 ,面向 特定 领域 的 ,同时 还 要 能 够 易于 被 用 户 理解 。 最 好 
能 用 自然 语言 表达 所 发 现 的 结果 。 

数据 挖掘 对 知识 特征 的 揭示 如 图 7.5 所 示 。 
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图 7.5 数据 挖掘 揭示 知识 特征 


2. 商业 角度 的 定义 


数据 挖掘 是 一 种 新 的 商业 信息 处 理 技术 ,其 主要 特点 是 对 商业 数据 库 中 的 大 量 业务 
数据 进行 抽取 、 转 换 、 分 析 和 其 他 模型 化 处 理 , 从 中 提取 辅助 商业 决策 的 关键 性 数据 。 

简 言 之 ,数据 挖掘 其 实 是 一 类 深层 次 的 数据 分 析 方 法 。 数 据 分 析 本 身 已 经 有 很 多 年 
的 历史 ,只 不 过 在 过 去 数据 收集 和 分 析 的 目的 是 用 于 科学 研究 ,另外 ,由 于 当时 计算 能 力 
的 限制 ,对 大 数据 量 进行 分 析 的 复杂 数据 分 析 方法 受到 很 大 限制 。 

现在 ,由 于 各 行业 业务 自动 化 的 实现 ,商业 领域 产生 了 大 量 的 业务 数据 ,这 些 数据 不 
再 是 为 了 分 析 的 目的 而 收集 的 ,而 是 由 于 纯 机 会 的 (Opportunistic) 商 业 运作 而 产生 。 分 
析 这 些 数据 也 不 再 是 单纯 为 了 研究 的 需要 ,更 主要 是 为 商业 决策 提供 真正 有 价值 的 信息 ， 


本 


进而 获得 利润 。 但 所 有 企业 面临 的 一 个 共同 问题 是 : 企业 数据 量 非常 大 ,而 其 中 真正 有 
价值 的 信息 却 很 少 ,因此 从 大 量 的 数据 中 经 过 深层 分 析 , 获 得 有 利于 商业 运作 、 提 高 竞争 
力 的 信息 ,就 像 从 矿石 中 淘金 一 样 ,数据 挖掘 也 因此 而 得 名 。 基 于 数据 仓库 的 数据 挖掘 如 
图 7.6 所 示 。 



























































数据 预 处 理 挖掘 内 核 模式 表达 






























原始 数据 抽取 的 正确 模式 集合 


可 靠 的 数据 


7.6 ”基于 数据 仓库 的 数据 挖掘 


因此 ,数据 挖掘 可 以 描述 为 : 按 企业 既定 业务 目标 ,对 大 量 的 企业 数据 进行 探索 和 分 
析 ,揭示 隐藏 的 .未知 的 或 验证 已 知 的 规律 性 ,并 进一步 将 其 模型 化 的 先进 有 效 的 方法 。 


7.2.2 数据 挖掘 的 常用 方法 

利用 数据 挖掘 进行 数据 分 析 常 用 的 方法 主要 有 分 类 .回归 分 析 、 聚 类 .关联 规则 、 特 
征 、 变 化 和 偏差 分 析 、Web 页 挖掘 等 ,它们 分 别 从 不 同 的 角度 对 数据 进行 挖掘 。 

1. 分 类 

分 类 是 找 出 数据 库 中 一 组 数据 对 象 的 共同 特点 并 按照 分 类 模式 将 其 划分 为 不 同 的 
类 ,其 目的 是 通过 分 类 模型 ,将 数据 库 中 的 数据 项 映射 到 某 个 给 定 的 类 别 。 它 可 以 应 用 到 
客户 的 分 类 ,客户 的 属性 和 特征 分 析 ,客户 满 意 度 分 析 客户 的 购买 趋势 预测 等 ,如 一 个 汽 
车 零售 商 将 客户 按照 对 汽车 的 喜好 划分 成 不 同 的 类 ,这 样 营销 人 员 就 可 以 将 新 型 汽车 的 
广告 手册 直接 邮寄 到 有 这 种 喜好 的 客户 手中 ,从 而 大 大 增加 了 商业 机 会 。 

2. 回归 分 析 


回归 分 析 方法 反映 的 是 事务 数据 库 中 属性 值 在 时 间 上 的 特征 ,产生 一 个 将 数据 项 映 
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射 到 一 个 实 值 预测 变量 的 函数 ,发 现 变量 或 属性 间 的 依赖 关系 ,其 主要 研究 问题 包括 数据 
序列 的 趋势 特征 ,数据 序列 的 预测 以 及 数据 间 的 相关 关系 等 。 它 可 以 应 用 到 市 场 营销 的 
各 个 方面 ,如 客户 寻求 .保持 和 预防 客户 流失 活动 .产品 生命 周期 分 析 、 销 售 趋势 预测 及 有 
针对 性 的 促销 活动 等 。 

3. 聚 类 

聚 类 分 析 是 把 一 组 数据 按照 相似 性 和 差异 性 分 为 几 个 类 别 , 其 目的 是 使 得 属于 同一 
类 别 的 数据 间 的 相似 性 尽 可 能 大 ,不 同类 别 中 的 数据 间 的 相似 性 尽 可 能 小 。 它 可 以 应 用 
到 客户 群体 的 分 类 、 客 户 背景 分 析 、 客 户 购买 趋势 预测 .市场 的 细 分 等 。 

4. 关联 规则 

关联 规则 是 描述 数据 库 中 数据 项 之 间 所 存在 的 关系 的 规则 , 即 根据 一 个 事务 中 某 些 
项 的 出 现 可 导出 另 一 些 项 在 同一 事务 中 也 出 现 , 即 隐藏 在 数据 间 的 关联 或 相互 关系 。 在 
客户 关系 管理 中 ,通过 对 企业 的 客户 数据 库 里 的 大 量 数据 进行 挖掘 ,可 以 从 大 量 的 记录 中 
发 现 有 趣 的 关联 关系 , 找 出 影响 市 场 营销 效果 的 关键 因素 ,为 产品 定位 .定价 与 定制 客户 
和 群 ,客户 寻求 、 细 分 与 保持 ,市 场 营销 与 推销 ,营销 风险 评估 和 诈骗 预测 等 决策 支持 提供 参 
考 依据 。 

Ss. 特征 

特征 分 析 是 从 数据 库 中 的 一 组 数据 中 提取 出 关于 这 些 数据 的 特征 式 , 这 些 特 征 式 表 
达 了 该 数据 集 的 总 体 特征 。 如 营销 人 员 通 过 对 客户 流失 因素 的 特征 提取 ,可 以 得 到 导致 
客户 流失 的 一 系列 原因 和 主要 特征 ,利用 这 些 特征 可 以 有 效 地 预防 客户 的 流失 。 

6. 变化 和 偏差 分 析 

偏差 包括 很 大 一 类 潜在 有 趣 的 知识 ,如 分 类 中 的 反常 实例 .模式 的 例外 、 观 察 结果 对 
期 望 的 偏差 等 ,其 目的 是 寻找 观察 结果 与 参照 量 之 间 有 意义 的 差别 。 在 企业 危机 管理 及 
其 预警 中 ,管理 者 更 感 兴趣 的 是 那些 意外 规则 。 意 外 规则 的 挖掘 可 以 应 用 到 各 种 异常 信 
息 的 发 现 . 分 析 、 识 别 .评价 和 预警 等 方面 。 

7.， Web 页 挖掘 

随 着 Internet 的 迅速 发 展 及 Web 的 全 球 普及 ,使 得 Web 上 的 信息 量 无 比 丰 富 ,通过 
对 Web 的 挖掘 ,可 以 利用 Web 的 海量 数据 进行 分 析 , 收 集 政治 、 经 济 政策. 科技、 金融 、 
各 种 市 场 、. 竞 争 对 手 、 供 求 信息 、 客 户 等 有 关 的 信息 ,集中 精力 分 析 和 处 理 那些 对 企业 有 重 
大 或 潜在 重大 影响 的 外 部 环境 信息 和 内 部 经 营 信息 ,并 根据 分 析 结 果 找 出 企业 管理 过 程 
中 出 现 的 各 种 问题 和 可 能 引起 危机 的 先兆 ,对 这 些 信息 进行 分 析 和 处 理 , 以 便 识别 ,分 析 、 
评价 和 管理 危机 。 


7.2.3 数据 挖掘 的 功能 


数据 挖掘 通过 预测 未 来 趋势 及 行为 ,做 出 前 摄 的 ,基于 知识 的 决策 。 数 据 挖掘 的 目标 
是 从 数据 库 中 发 现 隐 含 的 有 意义 的 知识 ,主要 有 以 下 五 类 功能 。 
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1. 自动 预测 趋势 和 行为 

数据 挖掘 自动 在 大 型 数据 库 中 寻找 预测 性 信息 ,以 往 需要 进行 大 量 手工 分 析 的 问题 
如 今 可 以 迅速 直接 由 数据 本 身 得 出 结论 。 一 个 典型 的 例子 是 市 场 预测 问题 ,数据 挖掘 使 
用 过 去 有 关 促 销 的 数据 来 寻找 未 来 投资 中 回报 最 大 的 用 户 , 其 他 可 预测 的 问题 包括 预报 
破产 以 及 认定 对 指定 事件 最 可 能 做 出 反应 的 群体 。 

2. 关联 分 析 

数据 关联 是 数据 库 中 存在 的 一 类 重要 的 可 被 发 现 的 知识 。 若 两 个 或 多 个 变量 的 取 值 
之 间 存 在 某 种 规律 性 ,就 称 为 关联 。 关 联 可 分 为 简单 关联 、 时 序 关联 、 因 果 关 联 。 关 联 分 
析 的 目的 是 找 出 数据 库 中 隐藏 的 关联 网 。 有 时 并 不 知道 数据 库 中 数据 的 关联 函数 ,即使 
知道 也 是 不 确定 的 ,因此 关联 分 析 生 成 的 规则 带 有 可 信 度 。 

3. 聚 类 

数据 库 中 的 记录 可 被 划分 为 一 系列 有 意义 的 子 集 , 即 聚 类 。 聚 类 增强 了 人 们 对 客观 
现实 的 认识 ,是 概念 描述 和 偏差 分 析 的 先决 条 件 。 聚 类 技术 主要 包括 传统 的 模式 识别 方 
法 和 数学 分 类 学 。20 世纪 80 年 代 初 ,Mchalski 提出 了 概念 聚 类 技术 及 其 要 点 ; 在 划分 
对 象 时 不 仅 考虑 对 象 之 间 的 距离 ,还 要 求 划分 出 的 类 具有 某 种 内 涵 描 述 , 从 而 避免 了 传统 
技术 的 某 些 片面 性 。 

4. 概念 描述 

概念 描述 就 是 对 某 类 对 象 的 内 涵 进 行 描述 ,并 概括 这 类 对 象 的 有 关 特 征 。 概 念 描述 
分 为 特征 性 描述 和 区 别 性 描述 ,前 者 描述 某 类 对 象 的 共同 特征 ,后 者 描述 不 同类 对 象 之 间 
的 区 别 。 生 成 一 个 类 的 特征 性 描述 只 涉及 该 类 对 象 中 所 有 对 象 的 共性 。 生 成 区 别 性 描述 
的 方法 很 多 ,如 决策 树 方法 .遗传 算法 等 。 

5. 偏差 检测 

数据 库 中 的 数据 常 有 一 些 异 常 记录 ,从 数据 库 中 检测 这 些 偏差 很 有 意义 。 偏 差 包 括 
很 多 潜在 的 知识 ,如 分 类 中 的 反常 实例 .不 满足 规则 的 特例 、 观 测 结果 与 模型 预测 值 的 偏 
差 . 量 值 随时 间 的 变化 等 。 偏 差 检测 的 基本 方法 是 ,寻找 观测 结果 与 参照 值 之 间 有 意义 的 
差别 。 


7.2.4 数据 挖掘 技术 
下 面 介 绍 数据 控 气 的 一 些 常用 技术 。 


1. 人工 神经 网 络 


人 工 神经 网 络 (Artificial Neural Network, ANN) 是 20 世纪 80 年 代 以 来 人 工 智能 领 
域 兴 起 的 研究 热点 。 它 从 信息 处 理 角度 对 人 脑 神经 元 网 络 进行 抽象 ,建立 某 种 简单 模型 ， 
按 不 同 的 连接 方式 组 成 不 同 的 网 络 。 在 工程 与 学 术 界 也 常 直接 简称 为 神经 网 络 或 类 神经 
网 络 。 神 经 网 络 是 一 种 运算 模型 ,由 大 量 的 结 点 (或 称 神经 元 ) 之 间 相 互 连 接 构 成 。 每 个 
结 点 代表 一 种 特定 的 输出 函数 , 称 为 激励 函数 (activation function)。 每 两 个 结 点 间 的 连 
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接 都 代表 一 个 对 于 通过 该 连接 信号 的 加 权 值 , 称 为 权重 ,这 相当 于 人 工 神经 网 络 的 记忆 。 
网 络 的 输出 则 依 网 络 的 连接 方式 ,权重 值 和 激励 函数 的 不 同 而 不 同 。 而 网 络 自身 通常 都 
是 对 自然 界 某 种 算法 或 者 函数 的 逼近 ,也 可 能 是 对 一 种 逮 辑 策略 的 表达 。 

最 近 十 多 年 来 ,人 工 神经 网 络 的 研究 工作 不 断 深 入 ,已 经 取得 了 很 大 的 进展 ,其 在 模 
式 识别 ,智能 机 器 人 、 自 动 控制 预测 估计 生物 、 医 学 、 经 济 等 领域 已 成 功 地 解决 了 许多 现 
代 计 算 机 难以 解决 的 实际 问题 ,表现 出 了 良好 的 智能 特性 。 


2. 决策 树 


决策 树 (Decision Tree) 是 在 已 知 各 种 情况 发 生 概率 的 基础 上 ,通过 构成 决策 树 来 求 
取 净 现 值 的 期 望 值 大 于 等 于 零 的 概率 ,评价 项 目 风险 ,判断 其 可 行 性 的 决策 分 析 方 法 ,是 
直观 运用 概率 分 析 的 一 种 图 解法 。 由 于 这 种 决策 分 支 画 成 图 形 很 像 一 棵 树 的 枝 干 , 故 称 
决策 树 。 在 机 器 学 习 中 ,决策 树 是 一 个 预测 模型 ,他 代表 的 是 对 象 属性 与 对 象 值 之 间 的 一 
种 映射 关系 。Entropy 一 系统 的 凌乱 程度 ,使 用 算法 ID3、C4.5 和 C5.0 生成 树 算法 使 用 
粹 。 这 一 度量 是 基于 信息 学 理论 中 粹 的 概念 。 

决策 树 是 一 种 树 形 结构 ,其 中 每 个 内 部 结 点 表示 一 个 属性 上 的 测试 ,每 个 分 支 代表 一 
个 测试 输出 ,每 个 叶 结 点 代表 一 种 类 别 。 

分 类 树 ( 决 策 树 ) 是 一 种 十 分 常用 的 分 类 方法 。 它 是 一 种 监管 学 习 , 所 谓 监管 学 习 , 就 
是 给 定 一 堆 样本 ,每 个 样本 都 有 一 组 属性 和 一 个 类 别 , 这 些 类 别 是 事先 确定 的 ,那么 通过 
学 习 得 到 一 个 分 类 器 ,这 个 分 类 器 能 够 对 新 出 现 的 对 象 给 出 正确 的 分 类 。 这 样 的 机 器 学 
习 就 被 称 为 监管 学 习 。 

3. 遗传 算法 

遗传 算法 (Genetic Algorithm) 是 模拟 达尔 文生 物 进 化 论 的 自然 选择 和 遗传 学 机 理 的 
生物 进化 过 程 的 计算 模型 ,是 一 种 通过 模拟 自然 进化 过 程 搜索 最 优 解 的 方法 。 

遗传 算法 是 从 代表 问题 可 能 潜在 的 解 集 的 一 个 种 群 (population) 开 始 的 ,而 一 个 种 
和 群 则 由 经 过 基因 (gene) 编 码 的 一 定数 目的 个 体 (individual) 组 成 。 每 个 个 体 实际 上 是 染 
色 体 (chromosome) 带 有 特征 的 实体 。 染 色 体 作为 遗传 物质 的 主要 载体 , 即 多 个 基因 的 集 
合 , 其 内 部 表现 ( 即 基 因 型 ) 是 某 种 基因 组 合 , 它 决 定 了 个 体 的 形状 的 外 部 表现 ,如 黑头 发 
的 特征 是 由 染色 体 中 控制 这 一 特征 的 某 种 基因 组 合 决定 的 。 因 此 ,在 一 开始 需要 实现 从 
表现 型 到 基因 型 的 映射 即 编码 工作 。 

由 于 仿照 基因 编码 的 工作 很 复杂 ,所 以 往往 对 其 进行 简化 ,如 二 进 制 编码 ,初代 种 群 
产生 之 后 ,按照 适 者 生存 和 优胜 劣 汰 的 原理 , 逐 代 (generation) 演 化 产生 出 越 来 越 好 的 近 
似 解 。 在 每 一 代 , 根 据 问题 域 中 个 体 的 适应 度 (fitness) 大 小 选择 (selection) 个 体 ,并 借助 
于 自然 遗传 学 的 遗传 算 子 (genetic operators) 进行 组 合 交 叉 (crossover) 和 变异 
(mutation) ,产生 出 代表 新 的 解 集 的 种 群 。 这 个 过 程 将 导致 种 群像 自然 进化 一 样 的 后 生 
代 种 群 比 前 代 更 加 适应 于 环境 ,末代 种 群 中 的 最 优 个 体 经 过 解码 (decoding) ,可 以 作为 问 
题 近 似 最 优 解 。 

4. 邻近 算法 

邻近 算法 ,或 者 说 上 最 近邻 (KNN ,k-Nearest Neighbor) 分 类 算法 是 数据 挖掘 分 类 技 
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术 中 最 简单 的 方法 之 一 。 所 谓 & 最 近邻 ,就 是 & 个 最 近 的 邻居 的 意思 ,说 的 是 每 个 样本 都 
可 以 用 它 最 接近 的 个 邻居 来 代表 。 邻 近 算 法 如 图 7.7 所 示 。 

ANN 算法 的 核心 思想 是 如 果 一 个 样本 在 特征 空间 中 的 个 最 相 邻 的 样本 中 的 大 多 
数 属于 某 一 个 类 别 , 则 该 样本 也 属于 这 个 类 别 , 并 具有 这 个 类 别 上 样本 的 特性 。 该 方法 在 
确定 分 类 决策 上 只 依据 最 邻近 的 一 个 或 者 几 个 样本 的 类 别 来 决定 待 分 样本 所 属 的 类 别 。 

kNN 方法 在 类 别 决策 时 ,只 与 极 少 量 的 相 邻 样本 有 关 。 由 于 ANN 方法 主要 靠 周围 
有 限 的 邻近 的 样本 ,而 不 是 靠 判 别 类 域 的 方法 来 确定 所 属 类 别 的 ,因此 对 于 类 域 的 交叉 或 
重 释 较 多 的 待 分 样本 集 来 说 ,kNN 方法 较 其 他 方法 更 为 适合 。 

如 图 7.8 所 示 , 圆 要 被 决定 赋予 哪个 类 ,是 三 角形 还 是 四 方形 ? 如 果 一 3, 由 于 三 角 
形 所 占 比 例 为 2/3, 圆 将 被 赋予 三 角形 那个 类 ,如 果 &=5, 由 于 四 方形 比例 为 3/5, 因 此 圆 
被 赋予 四 方形 类 。 





和 a 











图 7.7 邻近 算法 图 7.8 kNN 算 法 的 决策 过 程 





上 最 近邻 (k-Nearest Neighbor,kNN) 分 类 算法 ,是 一 个 理论 上 比较 成 熟 的 方法 ,也 是 
最 简单 的 机 器 学 习 算法 之 一 。 该 方法 的 思路 是 : 如 果 一 个 样本 在 特征 空间 中 的 个 最 相 
似 ( 即 特征 空间 中 最 邻近 ) 的 样本 中 的 大 多 数 属于 某 一 个 类 别 , 则 该 样本 也 属于 这 个 类 别 。 
ANN 算法 中 ,所 选择 的 邻居 都 是 已 经 正确 分 类 的 对 象 。 该 方法 在 定 类 决策 上 只 依据 最 邻 
近 的 一 个 或 者 几 个 样本 的 类 别 来 决定 待 分 样本 所 属 的 类 别 。ANN 方法 虽然 从 原理 上 也 
依赖 于 极限 定理 ,但 在 类 别 决 策 时 ,只 与 极 少量 的 相 邻 样本 有 关 。 由 于 ANN 方法 主要 靠 
周围 有 限 的 邻近 的 样本 ,而 不 是 靠 判 别 类 域 的 方法 来 确定 所 属 类 别 的 ,因此 对 于 类 域 的 交 
叉 或 重 释 较 多 的 待 分 样本 集 来 说 ,kNN 方法 较 其 他 方法 更 为 适合 。 

ANN 算法 不 仅 可 以 用 于 分 类 ,还 可 以 用 于 回归 。 通 过 找 出 一 个 样本 的 & 个 最 近邻 
居 , 将 这 些 邻 居 的 属性 的 平均 值 赋 给 该 样本 ,就 可 以 得 到 该 样本 的 属性 。 更 有 用 的 方法 是 
将 不 同 距离 的 邻居 对 该 样本 产生 的 影响 给 予 不 同 的 权 值 (weight) ,如 权 值 与 距离 成 反比 。 


7.2.5 数据 挖掘 的 流程 
1. 数据 挖掘 环境 
数据 挖掘 是 指 一 个 完整 的 过 程 ,该 过 程 从 大 型 数据 库 中 挖掘 先前 未 知 的 、 有 效 的 、 可 
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实用 的 信息 ,并 使 用 这 些 信息 做 出 决策 或 丰富 知识 。 
2. 数据 挖掘 过 程 图 
图 7.9 描述 了 数据 挖掘 的 基本 过 程 和 主要 步骤 。 
数据 准备 数据 挖掘 ei 


一 和 | 一 





| 





结果 表达 和 解释 


















































图 7.9 典型 数据 挖掘 系 统 的 过 程 


3. 数据 挖掘 过 程 工 作 量 

在 数据 挖掘 中 被 研究 的 业务 对 象 是 整个 过 程 的 基础 , 它 驱动 了 整个 数据 挖掘 过 程 ,也 
是 检验 最 后 结果 和 指引 分 析 人 员 完 成 数据 挖掘 的 依据 和 顾问 。 各 个 步骤 是 按 一 定 顺序 完 
成 的 ,当然 整个 过 程 中 还 会 存在 步骤 间 的 反馈 。 数 据 挖掘 的 过 程 并 不 是 自动 的 , 绝 大 多 数 
的 工作 需要 人 工 完 成 。 各 步 又 在 整个 过 程 中 的 工作 量 之 比 。 可 以 看 到 ,60% 的 时 间 用 在 
数据 准备 上 ,这 说 明了 数据 挖掘 对 数据 的 严格 要 求 , 而 后 挖掘 工作 仅 占 总 工作 量 的 10%。 

4. 数据 挖掘 过 程 简介 

过 程 中 各 个 步骤 的 大 体内 容 如 下 : 

1) 确定 业务 对 象 

清晰 地 定义 出 业务 问题 , 认 清 数据 挖掘 的 目的 是 数据 挖掘 的 重要 一 步 。 挖 掘 的 最 后 
结构 是 不 可 预测 的 ,但 要 探索 的 问题 应 是 有 预见 的 ,为 了 数据 挖掘 而 数据 挖掘 则 带 有 盲目 
性 ,是 不 会 成 功 的 。 

2) 数据 准备 

(1) 数据 的 选择 。 

搜索 所 有 与 业务 对 象 有 关 的 内 部 和 外 部 数据 信息 ,并 从 中 选择 出 适用 于 数据 挖掘 应 
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用 的 数据 。 

(2) 数据 的 预 处 理 。 

研究 数据 的 质量 ,为 进一步 的 分 析 做 准备 ,并 确定 将 要 进行 的 挖掘 操作 的 类 型 。 

(3) 数据 的 转换 。 

将 数据 转换 成 一 个 分 析 模 型 。 这 个 分 析 模 型 是 针对 挖掘 算法 建立 的 。 建 立 一 个 真正 
适合 挖掘 算法 的 分 析 模 型 是 数据 挖掘 成 功 的 关键 。 

3) 数据 挖掘 

对 所 得 到 的 经 过 转换 的 数据 进行 挖掘 。 除 了 完善 从 选择 合适 的 挖掘 算法 外 ,其 余 一 
切 工作 都 能 自动 完成 。 

4) 结果 分 析 

解释 并 评估 结果 。 其 使 用 的 分 析 方 法 一 般 应 作 数据 挖掘 操作 而 定 ,通常 会 用 到 可 视 
化 技术 。 

5) 知识 的 同化 

将 分 析 所 得 到 的 知识 集成 到 业务 信息 系统 的 组 织 结构 中 去 。 

5. 数据 挖掘 需要 的 人 员 

数据 挖掘 过 程 的 分 步 实现 ,不 同 的 步骤 需要 有 不 同 专 长 的 人 员 , 大 体 可 以 分 为 三 类 。 

业务 分 析 人 员 : 要 求 精 通 业务 ,能 够 解释 业务 对 象 ,并 根据 各 业务 对 象 确定 出 用 于 数 
据 定 义 和 挖 掘 算法 的 业务 需求 。 

数据 分 析 人 员 : 精通 数据 分 析 技 术 ,并 对 统计 学 有 较 熟 练 的 掌握 ,有 能 力 把 业务 需求 
转化 为 数据 挖掘 的 各 步 操作 ,并 为 每 步 操作 选择 合适 的 技术 。 

数据 管理 人 员 : 精通 数据 管理 技术 ,并 从 数据 库 或 数据 仓库 中 收集 数据 。 

从 上 可 见 ,数据 挖掘 是 一 个 多 种 专家 合作 的 过 程 ,也 是 一 个 在 资金 上 和 技术 上 高 投入 
的 过 程 。 这 一 过 程 要 反复 进行 并 在 反复 过 程 中 ,不 断 地 趋 近 事物 的 本 质 ,不 断 地 优化 问题 
的 解决 方案 。 


7.2.6 数据 挖掘 的 应 用 

1. 数据 挖掘 解决 的 典型 商业 问题 

需要 强调 的 是 ,数据 挖掘 技术 从 一 开始 就 是 面向 应 用 的 。 目 前 ,在 很 多 领域 ,数据 挖 
掘 (data mining) 都 是 一 个 很 时 瞩 的 词 ,尤其 是 在 如 银行 .电信 保险、 交通 、 零 售 (如 超级 市 
场 ) 等 商业 领域 。 数 据 挖掘 所 能 解决 的 典型 商业 问题 包括 数据 库 营 销 (Database 
Marketing) ,客户 群体 划分 (Customer Segmentation & Classification) ,背景 分 析 (Profile 
Analysis) ,交叉 销售 (Cross-selling) 等 市 场 分 析 行 为 ,以 及 客户 流失 性 分 析 (churn 
Analysis) ,客户 信用 记分 (Credit Scoring) ,欺诈 发 现 (Fraud Detection) ,故障 诊断 等 等 。 


2. 数据 挖 气 在 市 场 营 销 的 应 用 

数据 挖掘 技术 在 企业 市 场 营销 中 得 到 了 比较 普遍 的 应 用 , 它 以 市 场 营销 学 的 市 场 细 
分 原理 为 基础 ,其 基本 假定 是 “消费 者 过 去 的 行为 是 其 今后 消费 倾向 的 最 好 说 明 ”。 

通过 收集 .加工 和 处 理 涉及 消费 者 消费 行为 的 大 量 信息 ,确定 特定 消费 群体 或 个 体 的 
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兴趣 消费 习惯 .消费 倾向 和 消费 需求 ,进而 推断 出 相应 消费 群体 或 个 体 下 一 步 的 消费 行 
为 ,然后 以 此 为 基础 ,对 所 识别 出 来 的 消费 群体 进行 特定 内 容 的 定向 营销 ,这 与 传统 的 不 
区 分 消费 者 对 象 特征 的 大 规模 营销 手段 相 比 ,大 大 节省 了 营销 成 本 ,提高 了 营销 效果 ,从 
而 为 企业 带 来 更 多 的 利润 。 

3. 案例 一 一 信用 卡 消费 的 数据 挖掘 

商业 消费 信息 来 自 市 场 中 的 各 种 渠道 。 例 如 ,每 当 用 信用 卡 消费 时 ,商业 企业 就 可 以 
在 信用 卡 结算 过 程 收集 商业 消费 信息 ,记录 下 人 们 进行 消费 的 时 间 、 地 点 、. 感 兴趣 的 商品 
或 服务 ,愿意 接收 的 价格 水 平和 支付 能 力 等 数据 ; 当 我 们 在 申办 信用 卡 、 办 理 汽 车 驾驶 执 
照 \ 填 写 商 品 保修 单 等 其 他 需要 填写 表格 的 场合 时 ,我 们 的 个 人 信息 就 存 人 了 相应 的 业务 
数据 库 ; 企 业 除了 自行 收集 相关 业务 信息 之 外 ,甚至 可 以 从 其 他 公司 或 机 构 购 买 此 类 信息 
为 自己 所 用 。 

这 些 来 自 各 种 渠道 的 数据 信息 被 组 合 ,应 用 超级 计算 机 、 并 行 处 理 、 神 经 元 网 络 ,模型 
化 算法 和 其 他 信息 处 理 技术 手段 进行 处 理 ,从 中 得 到 商家 用 于 向 特定 消费 群体 或 个 体 进 
行 定向 营销 的 决策 信息 。 这 种 数据 信息 是 如 何 应 用 的 呢 ? 

举 一 个 简单 的 例子 。 当 银行 通过 对 业务 数据 进行 挖掘 后 ,发 现 一 个 银行 账户 持 有 者 
突然 要 求 申 请 双人 联合 账户 时 ,并 且 确 认 该 消费 者 是 第 一 次 申请 联合 账户 ,银行 会 推断 该 
用 户 可 能 要 结婚 了 , 它 就 会 向 该 用 户 定向 推销 用 于 购买 房屋 ,支付 子女 学 费 等 长 期 投资 业 
务 ,银行 甚至 可 能 将 该 信息 卖 给 专营 婚庆 商品 和 服务 的 公司 。 数 据 挖掘 构筑 竞争 优势 。 

在 市 场 经 济 比较 发 达 的 国家 和 地 区 ,许多 公司 都 开始 在 原 有 信息 系统 的 基础 上 通过 
数据 挖掘 对 业务 信息 进行 深加工 ,以 构筑 自己 的 竞争 优势 ,扩大 自己 的 营业 额 。 

美国 运通 公司 (American Express) 有 一 个 用 于 记录 信用 卡 业 务 的 数据 库 , 数 据 量 达 
到 54 亿 字 符 , 并 仍 在 随 着 业务 进展 不 断 更 新 。 运 通 公司 通过 对 这 些 数据 进行 挖掘 ,制定 
了 “关联 结算 (Relation ship Billing) 优 惠 ” 的 促销 策略 , 即 如 果 一 个 顾客 在 一 个 商店 用 运 
通 卡 购买 一 套 时 装 ,那么 在 同一 个 商店 再 买 一 双 鞋 ,就 可 以 得 到 比较 大 的 折扣 ,这 样 既 可 
以 增加 商店 的 销售 量 ,也 可 以 增加 运通 卡 在 该 商店 的 使 用 率 。 


7.2.7 “大 数据 自动 挖掘 ” 才 是 大 数据 的 真正 意义 

1. 大 数据 不 是 指 很 多 数据 

“大 数据 "只 是 个 简称 ,说 全 一 点 应 是 “大 数据 挖掘 ”, 没 经 过 挖掘 的 大 数据 只 是 没有 开 
采 出 来 的 原油 ,一 点 用 处 都 没有 。 

2. 大 数据 也 不 是 指 一 般 意 义 上 的 数据 挖掘 

有 很 多 人 以 前 是 搞 数 据 分 析 或 数据 挖掘 的 , 当 ( 大 数据 时 代 》 这 本 书 一 问世 大 数据 开 
始 火 的 时 候 ,他 们 摇身一变 就 成 了 搞 大 数据 的 专家 了 。 如 果真 是 这 样 ,就 根本 没 必 要 提 大 
数据 这 事 儿 ,因为 它 本 来 就 一 直 存在 着 ,只 不 过 换个 说 法 。 就 好 像 我 们 没 必要 今天 突然 提 
出 个 “ 饮 HO0” 的 说 法 来 代替 “ 喝 水 ”。 嗯 ,对 , 那 叫 玩 概念 。 

3.“ 大 数据 挖掘 "其实 还 没有 说 全 ,再 说 完整 点 ,应 该 是 "大 数据 自动 挖掘” 

以 前 的 数据 分 析 或 挖掘 ,是 指 人 通过 数据 去 进行 分 析 ,挖掘 出 一 些 规律 性 的 东西 以 供 


A 


以 后 使 用 。 

但 面 对 大 数据 ,由 于 不 光 是 数据 量 太 大 ,而 且 往 往 包 括 数据 的 维度 也 很 多 , 人 已 不 可 
能 去 处 理 这 样 海量 的 数据 ,甚至 如 何 处 理 都 不 知道 ,这 时 必须 用 计算 机 来 自动 处 理 , 挖 气 
出 数据 中 的 规律 。 

但 是 目前 计算 机 还 不 能 像 人 那样 进行 严密 、 复 杂 的 逻辑 思维 ,因此 它们 也 无 法 用 人 的 
思维 模式 去 分 析 数 据 , 人 可 能 只 要 较 少 的 数据 就 能 分 析出 其 中 的 规律 ,数据 多 了 反而 没有 
办 法 ,所 以 我 们 人 类 都 是 采用 抽样 分 析 。 

计算 机 则 正好 相反 ,无 法 根据 少量 数据 去 分 析出 规律 ,但 它 有 一 个 优势 , 那 就 是 运算 
速度 非常 快 ,因此 有 可 能 处 理 海量 数据 以 后 找 出 其 中 的 规律 。 

由 于 计算 机 还 不 能 进行 复杂 的 逻辑 思维 ,所 以 它 的 处 理 方法 很 简单 ,就 是 进行 简单 的 
统计 运算 ,也 就 是 “ 硬 算 ”, 统 计 出 在 什么 情况 会 出 什么 样 的 结果 ,然后 当 类 似 的 情况 再 出 
现时 , 它 就 会 告诉 我 们 可 能 会 出 现 某 种 结果 了 。 

由 这 里 也 可 看 大 数据 的 另 一 个 特点 , 即 大 数据 主要 是 进行 预测 ,告诉 你 未 来 将 会 出 现 
什么 样 的 结果 。 而 不 是 只 分 析出 过 去 的 走势 和 现状 ,未 来 还 是 要 由 人 去 判断 。 

为 什么 这 种 简单 的 方法 会 有 效 呢 ? 这 就 回 到 “大 数据 ”这 个 词 上 来 了 , 那 就 是 因为 数 
据 量 非常 大 ,统计 出 来 的 结果 就 往往 是 正确 的 。 

大 家 一 定 都 知道 这 个 例子 , 扔 硬币 来 统计 正 、 反 面 出 现 的 几率 ,如 果 只 扔 10 次 ,也 许 
正面 出 现 9 次 ,以 此 来 得 出 结论 肯定 是 错 的 ;但 如 果 你 扔 10 万 次 .100 万 次 ,甚至 更 多 , 那 
你 统计 出 来 的 结果 基本 是 正确 的 , 正 、 反 面 出 现 的 几率 一 定 是 各 50%。 

是 的 ,大 数据 自动 挖掘 就 是 依据 这 一 原理 。 

这 里 没有 严密 的 因果 分 析 , 不 是 通过 数据 分 析出 原因 再 推导 出 结果 ;而 是 通过 统计 
知道 有 这 样 的 情况 ,一 般 就 会 有 这 样 的 结果 ,也 即 现象 与 结果 的 相关 性 。 所 以 大 数据 
就 有 一 个 显著 的 特点 ,只 关心 相关 性 ,不 关心 因果 ;用 更 通俗 的 话说 就 是 “只 知道 结果 ， 
不 知道 原因 ”。 

这 实际 是 人 们 根据 电脑 的 优势 , 找 出 了 一 个 全 新 的 数据 分 析 , 挖 掘 方式 ,与 传统 的 方 
式 完全 不 同 。 


7.3 商业 智能 与 数据 分 析 


7.3.1 商业 智能 技术 辅助 决策 的 发 展 


商务 智能 ,英文 为 Business Intelligence, 简 写 为 BI。 

商业 智能 的 概念 在 1996 年 最 早 由 加 特 纳 集团 (Gartner Group) 提 出 ,加 特 纳 集团 将 
商业 智能 定义 为 : 商业 智能 描述 了 一 系列 的 概念 和 方法 ,通过 应 用 基于 事实 的 支持 系统 
来 辅助 商业 决策 的 制定 。 商 业 智能 技术 提供 使 企业 迅速 分 析 数 据 的 技术 和 方法 ,包括 收 
集 、 管 理 和 分 析 数据 ,将 这 些 数据 转化 为 有 用 的 信息 ,然后 分 发 到 企业 各 处 。 

商业 智能 通常 被 理解 为 将 企业 中 现 有 的 数据 转化 为 知识 ,帮助 企业 做 出 明智 的 业务 
经 营 决策 的 工具 。 这 里 所 谈 的 数据 包括 来 自 企 业 业 务 系统 的 订单 .库存 .交易 账目 客户 
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和 供应 商 等 来 自 企 业 所 处 行业 和 竞争 对 手 的 数据 以 及 来 自 企 业 所 处 的 其 他 外 部 环境 中 的 
各 种 数据 。 而 商业 智能 能 够 辅助 进行 的 业务 经 营 决策 , 既 可 以 是 操作 层 的 ,也 可 以 是 战术 
层 和 战略 层 的 决策 。 为 了 将 数据 转化 为 知识 ,需要 利用 数据 仓库 联机 分 析 处 理 (OLAP) 
工具 和 数据 挖掘 等 技术 。 因 此 ,从 技术 层面 上 讲 ,商业 智能 不 是 什么 新 技术 , 它 只 是 数据 
仓库 .OLAP 和 数据 挖掘 等 技术 的 综合 运用 。 

可 以 认为 ,商业 智能 是 对 商业 信息 的 搜集 .管理 和 分 析 过 程 ,目的 是 使 企业 的 各 级 决 
策 者 获得 知识 或 洞察 力 (insight) ,促使 他 们 做 出 对 企业 更 有 利 的 决策 。 商 业 智能 一 般 由 
数据 仓库 联机 分 析 处 理 ,数据 挖掘 ,数据 备份 和 恢复 等 部 分 组 成 。 商 业 智能 的 实现 涉及 
到 软件 .硬件 ,咨询 服务 及 应 用 ,其 基本 体系 结构 包括 数据 仓库 、 联 机 分 析 处 理 和 数据 挖掘 
三 个 部 分 。 

因此 ,把 商业 智能 看 成 是 一 种 解决 方案 应 该 比较 恰当 。 商 业 智能 的 关键 是 从 许多 来 
自 不 同 的 企业 运作 系统 的 数据 中 提取 出 有 用 的 数据 并 进行 清理 ,以 保证 数据 的 正确 性 , 然 
后 经 过 抽取 (Extraction) ,转换 (Transformation) 和 装载 (Load), 即 ETL 过 程 ,合并 到 一 
个 企业 级 的 数据 仓库 里 ,从 而 得 到 企业 数据 的 一 个 全 局 视图 ,在 此 基础 上 利用 合适 的 查询 
和 分 析 工 具 数据 挖掘 工具 (大 数据 魔 镜 ) .OLAP 工具 等 对 其 进行 分 析 和 处 理 ( 这 时 信息 
变 为 辅助 决策 的 知识 ) ,最 后 将 知识 呈现 给 管理 者 ,为 管理 者 的 决策 过 程 提供 支持 。 

提供 商业 智能 解决 方案 的 著名 IT 厂商 包括 微软 、IBM、 Oracle、SAP, Informatica、 
Microstrategy、SAS、Royalsoft 等 。 


7.3.2 商业 智能 系统 架构 


从 系统 的 观点 来 看 ,商业 智能 的 过 程 是 这 样 的 : 从 不 同 的 数据 源 收集 的 数据 中 提取 
有 用 的 数据 ,对 数据 进行 清理 以 保证 数据 的 正确 性 ,将 数据 经 转换 、 重 构 后 存 人 数据 仓库 
或 数据 场 (这 时 数据 变 为 信息 ), 然 后 寻找 合适 的 查询 和 分 析 工具 ,数据 挖掘 工具 ,OLAP 
工具 对 信息 进行 处 理 ( 这 时 信息 变 为 辅助 决策 的 知识 ) ,最 后 将 知识 呈现 于 用 户 面前 ,转变 
为 决策 。 可 以 看 出 ,商业 智能 最 大 限度 地 利用 了 企业 操作 系统 (ERP) 中 的 数据 ,将 数据 整 
理 为 信息 ,再 升华 为 知识 ,所 以 对 用 户 提供 了 最 大 程度 的 支持 。 


7.3.3 商业 智能 的 技术 体系 


商业 智能 的 技术 体系 主要 由 数据 仓库 (DW) 、 在 线 分 析 处 理 (OLAP) 以 及 数据 挖掘 
(DM) 三 部 分 组 成 。 商 业 智能 中 所 包含 的 数据 分 析 技 术 主 要 可 分 为 以 下 三 个 阶段 。 

1. 数据 仓库 (Data Warehouse) 

为 了 有 效 地 进行 营销 管理 ,企业 往往 需要 将 各 地 的 数据 汇总 到 总 部 ,并 建立 一 个 庞大 
的 数据 仓库 。 这 种 数据 仓库 不 但 能 够 保存 历史 数据 、 阶 段 性 数据 ,并 从 时 间 上 进行 分 析 ， 
而 且 能 够 装载 外 部 数据 ,接受 大 量 的 外 部 查询 。 

建立 数据 仓库 的 过 程 一 般 包 括 清 洗 、 抽 取 数 据 操作 ,统一 数据 格式 , 设 定 自动 程序 以 
定时 抽取 操作 数据 并 自动 更 新 数据 仓库 ,预先 执行 合计 计算 等 步骤 。 

快速 .简单 . 易 用 的 查询 和 报告 工具 能 够 帮助 管理 者 充分 利用 企业 中 不 同 层 次 的 数 
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据 , 获 取 所 需要 的 特定 信息 ,并 以 合理 的 格式 加 以 显示 。 同 时 ,优秀 的 工具 支持 多 种 网 络 
环境 ,允许 用 户 在 客户 机 /服务 器 网 络 .内 部 网 络 或 Internet 上 传输 分 析 结 果 。 它 们 还 应 
该 有 足够 的 灵活 性 ,以 支持 各 种 类 型 的 查询 和 报告 需求 ,从 简单 的 订阅 .周期 性 的 报告 ,到 
使 用 SQL 和 其 他 查询 语言 作 随机 查询 。 

2. 在 线 分 析 处 理 (OLAP) 

在 线 分 析 处 理 是 一 种 高 度 交 互 式 的 过 程 ,信息 分 析 专 家 可 以 即时 进行 反复 分 析 , 迅 速 
获得 所 需 结果 。 在 线 分 析 处 理 同时 也 是 对 存储 在 多 维 数据 库 (MDD) 或 关系 型 数据 库 
(RDBMS) 中 的 数据 进行 分 析 、 处 理 的 过 程 。 这 种 分 析 可 以 是 多 维 在 线 分 析 处 理 、 关 系 型 
在 线 分 析 处 理 , 也 可 以 是 混合 在 线 分 析 处 理 。 

这 一 过 程 一 般 包括 三 种 可 供 选 择 的 方案 : 

。 预先 计算 一 一 小 结 数据 在 使 用 前 进行 计算 并 存储 ; 

。 即时 计算 和 存储 一 一 小 结 数据 在 查询 是 计算 ,然后 存储 结果 。 因 为 消除 了 相应 的 

运行 计算 ,使 随后 的 查询 运行 变 得 更 快 。 

。 随时 计算 一 一 用 户 在 需要 时 对 小 结 数据 进行 计算 。 

3. 数据 挖掘 (Data Mining) 


数据 挖掘 是 从 浩 如 瀚 海 的 数据 和 文档 中 发 现 以 前 未 知 的 .可 以 理解 的 信息 的 过 程 。 
由 于 数据 挖掘 的 价值 在 于 扫描 数据 仓库 或 建立 非常 复杂 的 查询 ,数据 和 文本 挖掘 工具 必 
须 提 供 很 高 的 吞吐 量 , 并 拥有 并 行 处 理 功能 ,而 且 可 以 支持 多 种 采集 技术 。 数 据 挖掘 工具 
应 该 拥有 良好 的 扩展 功能 ,并 且 能 够 支持 将 来 可 能 遇 到 的 各 种 数据 (或 文档 ) 和 计算 环境 。 

4. 总 结 

商业 智能 是 帮助 客户 将 数据 转化 为 利润 的 手段 。 实 质 上 ,商业 智能 就 是 帮助 企业 充 
分 利用 已 有 数据 ,将 其 分 析 整 理 为 可 用 信息 ,并 以 此 作为 企业 决策 的 依据 。 

目前 ,多 数 企 业 在 部 署 系统 时 多 针对 自身 当前 的 业务 需求 ,着 眼 于 静态 的 处 理 , 无 法 
有 效 地 预测 即将 产生 的 情况 。 在 这 种 条 件 下 ,他们 难免 处 于 被 动 的 边缘 ,在 市 场 的 波澜 面 
前 仓促 做 出 应 对 之 策 ,其 效果 自然 就 可 想 而 知 了 。 企 业 若 想 改变 一 直面 临 的 被 动 局 面 ,就 
必须 利用 智能 的 解决 方案 ,高 效 地 收集 ,整理 并 分 析 相 关 数 据 , 为 企业 的 正确 决策 提供 前 
脆性 支持 。 


7.3.4 商务 智能 = 数据 十 分 析 十 决策 十 利益 


1. 背景 介绍 


人 类 社会 从 物 物 交换 到 货币 的 产生 ,到 形形色色 的 交易 ,产生 了 现在 繁荣 .复杂 的 各 
种 商业 活动 。 利 益 是 商务 的 核心 ,而 商务 需要 经 过 买卖 双方 的 交易 ,谈判 ,而 商品 的 流通 
又 需要 物流 、 库 存 , 其 中 业务 流程 十 分 烦琐 ,然而 科技 进步 改善 或 者 正在 改变 着 其 形式 ,人 
们 的 工作 效率 正在 极 大 地 提高 。 

在 这 个 信息 化 的 时 代 , 许 多 传统 业务 被 信息 化 手段 所 取代 或 者 信息 化 作为 其 辅助 手 
段 。 于 是 ,在 这 个 时 代 , 所 有 的 人 都 在 谈 数据 ,并 且 相 关 的 商务 数据 呈 爆 炸 性 指数 级 的 增 
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长 。 可 是 ,不 是 所 有 的 数据 都 是 有 用 的 ,所 以 人 们 需要 从 中 挖掘 有 用 的 信息 ,用 于 指导 现 
实 工作 。 

商务 智能 通常 被 理解 为 将 企业 中 现 有 的 数据 转化 为 知识 ,帮助 企业 做 出 明智 的 业务 
经 营 决策 的 工具 。 比 如 ,百货 商场 每 天 有 各 种 各 样 的 商品 被 出 售 , 其 POS 系统 存储 着 商 
品 的 销售 情况 ,数据 量 十 分 庞大 。 在 这 些 数据 基础 上 ,利用 一 定 的 数学 模型 和 智能 软件 工 
具 进 行 分 析 ,知道 哪些 产品 最 热 销 ,哪些 时 段 人 们 喜欢 购买 什么 。 

接着 ,运用 分 析 后 的 结果 进行 决策 ,比如 分 析 后 得 知 下 雨天 的 时 候 啤 酒 和 炸 鸡 的 销量 
比 其 他 天 气 时 段 更 多 ,于 是 我 们 决定 在 下 雨 的 日 子 增 大 啤酒 和 炸 鸡 的 产量 。 通 过 这 些 分 
析 和 决策 ,得 到 了 商业 利润 的 增加 ,这 种 利润 是 利用 现代 工具 进行 商务 智能 活动 的 动力 。 
这 个 过 程 可 以 总 结 为 以 下 的 一 个 等 式 : 

商务 智能 = 数据 十 分 析 十 决策 十 利益 

2. 数据 获取 

传统 的 数据 获取 是 手工 进行 纸 质 记录 ,缺点 是 记录 容易 出 错 , 且 随 着 时 间 的 流动 ,其 
数量 会 大 大 增加 以 致 于 查找 历史 数据 的 困难 。 比 如 ,传统 地 主 家 的 管家 进行 家 庭 财政 的 
登记 ,账本 厚 又 重 , 对 账 极其 麻烦 ,而 且说 不 定 账 本 会 因为 火灾 或 各 种 原因 而 破损 ,如 被 老 
鼠 咬 烂 了 。 

随 着 科技 的 进步 ,有 了 计算 机 ,于 是 数据 存 到 了 磁带 ,然后 是 磁盘 。 世 界 因 有 了 社会 
分 工 而 变 得 美妙 ,每 个 人 都 在 自己 擅长 的 领域 工作 ,从 而 创造 着 更 大 的 利益 。 于 是 ,不 懂 
计算 机 的 人 借助 着 别人 开发 的 管理 系统 进行 数据 的 管理 ,比如 超市 的 商品 管理 系统 .公司 
内 部 的 人 员 管 理 系统 。 而 软件 程序 员 借 助 了 数据 库 .数据 仓库 等 产品 进行 设计 编码 ,创造 
了 上 述 的 管理 系统 。 

于 是 ,一 层 接力 一 层 , 数 据 的 获取 从 手工 一 个 个 用 笔记 下 来 到 使 用 计算 机 键盘 进行 录 
入。 通过 现代 科技 手段 ,查看 历史 数据 只 要 进行 搜索 ,很 快 很 好 就 能 得 到 十 年 前 的 数据 ， 
从 而 可 以 更 高 效率 地 进行 数据 分 析 。 

商务 智能 ,智能 二 字 凸 显 了 计算 机 的 重要 性 。 计 算 机 的 一 切 都 是 由 0、1 二 进 制 数组 
成 ,这 两 个 最 普通 不 过 的 符号 构建 了 计算 机 整个 数据 大 厦 。 如 何 更 好 地 将 数据 存 到 计算 
机 磁盘 中 ,并 迅速 读 取 出 来 呢 ? 早期 的 数据 存储 是 使 用 卡片 进行 数据 读 取 , 后 来 便 产 生 了 
现代 计算 机 的 存储 体系 .寄存 器 内存、 磁盘 。 从 硬件 开始 ,后 来 出 现 了 软件 层面 的 文件 系 
统 ,IO 流 。 为 了 更 便于 存储 大 量 数据 ,出 现 了 数据 库 软件 ,各 种 数据 库 理论 和 工具 开始 
出 现 。 

目前 使 用 最 多 的 数据 库 是 1993 年 E.F. Codd 提出 的 关系 数据 库 。 

3. 数据 分 析 

数据 分 析 方面 主要 依赖 数据 挖掘 方面 的 知识 ,因为 商务 智能 是 数据 挖掘 领域 的 一 个 
分 支 。 数 据 挖掘 一 般 是 指 从 大 量 的 数据 中 通过 算法 搜索 隐藏 于 其 中 信息 的 过 程 。 数 据 挖 
掘 通常 与 计算 机 科学 有 关 , 并 通过 统计 、 在 线 分 析 处 理 、 情 报 检索 .机 器 学 习 、 专 家 系统 ( 依 
靠 过 去 的 经 验 法 则 ) 和 模式 识别 等 诸多 方法 来 实现 上 述 目标 。 

数据 挖掘 利用 了 来 自如 下 一 些 领域 的 思想 : 
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(1) 来 自 统计 学 的 抽样 .估计 和 假设 检验 。 

(2) 人 工 智 能 、 模 式 识别 和 机 器 学 习 的 搜索 算法 、 建 模 技术 和 学 习 理论 。 

数据 挖掘 也 迅速 地 接纳 了 来 自 其 他 领域 的 思想 ,这 些 领 域 包 括 最 优化 .进化 计算 、 信 
息 论 ,信号 处 理 、 可 视 化 和 信息 检索 。 一 些 其 他 领域 也 起 到 重要 的 支撑 作用 。 特 别 地 , 需 
要 数据 库 系统 提供 有 效 的 存储 、 索 引 和 查询 处 理 支 持 。 源 于 高 性 能 (并 行 ) 计 算 的 技术 在 
处 理 海量 数据 集 方面 常常 是 重要 的 。 分 布 式 技术 也 能 帮助 处 理 海量 数据 ,并 且 当 数据 不 
能 集中 到 一 起 处 理 时 更 是 至 关 重要 。 

主要 的 分 析 算 法 有 分 类 (Classification) 估 计 (Estimation) 预 测 (Prediction) 相 关 性 分 
组 或 关联 规则 (Affinity grouping or association rules) 聚 类 (Clustering) 等 。 这 些 算法 主 
要 依赖 数学 进行 构建 ,大 多 数 商 业 数 据 挖掘 软件 已 经 实现 了 这 些 功能 ,方便 普通 人 士 的 
使 用 。 

通过 使 用 数据 挖掘 软件 ,可 以 对 存储 在 数据 库 中 的 数据 进行 分 析 处 理 , 得 到 一 定 的 统 
计 和 计算 结果 。 这 些 结果 可 以 指导 现实 的 决策 。 

目前 的 数据 挖掘 软件 有 用 于 一 般 分 析 目 的 的 软件 包 SAS Enterprise Miner、SPSS 
Clementine 和 IBM Intelligent Miner 等 ,还 有 针对 特定 功能 或 产业 而 研发 的 软件 ,如 
KD1( 针 对 零售 业 ) .Options & Choices( 针 对 保险 业 )、HNC( 针 对 信用 卡 诈 欺 或 呆账 侦 
测 ) .Unica Model 1( 针 对 行销 业 ) ,iEM System( 针 对 流程 行业 的 实时 历史 数据 ) 等 。 

4 商务 决策 

随 着 数据 库 技术 的 发 展 和 应 用 ,数据 库存 储 的 数据 量 从 20 世纪 80 年 代 的 兆 (M) 字 
节 及 千 兆 (G) 字 节 过 渡 到 现在 的 太 (T) 字 节 和 拍 (P) 字 节 , 同 时 ,用 户 的 查询 需求 也 越 来 
越 复杂 ,涉及 的 已 不 仅 是 查询 或 操纵 一 张 关系 表 中 的 一 条 或 几 条 记录 ,而 且 要 对 多 张 表 中 
千 万 条 记录 的 数据 进行 数据 分 析 和 信息 综合 ,关系 数据 库 系统 已 不 能 全 部 满足 这 一 要 求 。 
在 国外 ,不 少 软件 厂商 采取 了 发 展 其 前 端 产品 来 弥补 关系 数据 库 管 理 系统 支持 的 不 足 , 力 
图 统一 分 散 的 公共 应 用 逻辑 ,在 短 时 间 内 响应 非 数据 处 理 专业 人 员 的 复杂 查询 要 求 。 

联机 分 析 处 理 (OLAP) 系 统 是 数据 仓库 系统 最 主要 的 应 用 ,专门 设计 用 于 支持 复杂 
的 分 析 操 作 , 侧 重 对 决策 人 员 和 高 层 管理 人 员 的 决策 支持 ,可 以 根据 分 析 人 员 的 要 求 快 
速 . 灵 活 地 进行 大 数据 量 的 复杂 查询 处 理 , 并 且 以 一 种 直观 而 易 懂 的 形式 将 查询 结果 提供 
给 决策 人 员 ,以 便 他 们 准确 掌握 企业 (公司 ) 的 经 营 状况 ,了 解 对 象 的 需求 ,制定 正确 的 
方案 。 

OLAP 工具 是 针对 特定 问题 的 联机 数据 访问 与 分 析 。 它 通过 多 维 的 方式 对 数据 进 
行 分 析 ,查询 和 生成 报表 。 维 是 人 们 观察 数据 的 特定 角度 。 例 如 ,一 个 企业 在 考虑 产品 的 
销售 情况 时 ,通常 从 时 间 、 地 区 和 产品 的 不 同 角度 来 深入 观察 产品 的 销售 情况 。 

这 里 的 时 间 、 地 区 和 产品 就 是 维 。 而 这 些 维 的 不 同 组 合 和 所 考察 的 度量 指标 构成 的 
多 维 数组 则 是 OLAP 分 析 的 基础 ,可 形式 化 表示 为 ( 维 1, 维 2,…, 维 ,度量 指标 ), 如 (地 
区 \ 时 间 ,、 产 品 ,、 销 售 额 )。 多 维 分 析 是 指 对 以 多 维 形式 组 织 起 来 的 数据 采取 切片 (Slice) 、 
切 块 (Dice) , 钻 取 (Drill-down 和 Roll-up) ,旋转 (Pivot) 等 各 种 分 析 动 作 , 以 求 剖 析 数 据 ， 
使 用 户 能 从 多 个 角度 、 多 侧面 地 观察 数据 库 中 的 数据 ,从 而 深入 理解 包含 在 数据 中 的 


第 7 章 大 数据 分 析 与 数据 挖掘 


言 息 。 

商务 决策 使 用 了 上 述 的 数据 挖掘 软件 得 出 的 结果 ,而 OLAP 是 一 个 更 加 方便 的 系 
统 ,能 更 快 、 更 好 地 将 分 析 的 结果 以 图 表 等 方式 进行 展示 ,方便 决策 人 员 进 行 对 比 、 讨 论 。 
通过 智能 化 工具 的 处 理 ,领导 和 改革 者 可 以 决定 是 否 开 展 某 项 业务 ,或 者 如 何 进 行 某 项 业 
务 , 这 也 是 称 之 为 商务 决策 的 原因 。 

5. 利益 动力 

商业 智能 的 关键 是 从 许多 来 自 不 同 的 企业 运作 系统 的 数据 中 提取 出 有 用 的 数据 并 进 
行 清理 ,以 保证 数据 的 正确 性 ,然后 经 过 抽取 (Extraction) ,转换 (Transformation) 和 装载 
(Load), 即 ETL 过 程 ,合并 到 一 个 企业 级 的 数据 仓库 里 ,从 而 得 到 企业 数据 的 一 个 全 局 
视图 ,在 此 基础 上 利用 合适 的 查询 和 分 析 工 具 、 数 据 挖掘 工具 、OLAP 工具 等 对 其 进行 分 
析 和 处 理 ( 这 时 信息 变 为 辅助 决策 的 知识 ) ,最 后 将 知识 呈现 给 管理 者 ,为 管理 者 的 决策 过 
程 提供 支持 。 

商务 智能 = 数据 十 分 析 十 决策 十 利益 ,等 式 包 含 了 利益 ,是 因为 利益 作为 一 种 动力 ， 
促进 了 商务 智能 的 发 展 。 因 为 想 改 变 , 所 以 改变 。 因 为 想 提高 效率 ,所 以 改变 。 因 为 要 以 
最 小 的 投入 挣 得 最 大 的 利益 ,所 以 要 改变 。 人 类 生活 的 改变 来 源 人 类 对 美好 生活 的 追求 ， 
想 把 人 类 从 繁忙 的 体力 劳动 中 解放 出 来 。 计 算 机 这 一 科技 产物 ,与 商务 联系 起 来 ,必定 能 
够 创造 极 大 的 价值 。 


7.4 电 商 大 数据 分 析 技术 


7.4.1 移动 互联 网 应 用 数据 分 析 基 础 


现在 诸多 大 型 互联 网 公司 其 移动 端的 流量 已 经 超越 PC 端的 流量 ,很 多 大 型 互联 网 
企业 PC 业务 用 户 往 移动 端 迁移 ,呈现 出 PC 业务 增长 放 缓 ,移动 业务 增长 迅速 的 态势 。 
从 第 三 方 数据 机 构 统计 的 数据 来 看 ,网 民 中 使 用 手机 上 网 的 人 群 占 比 进一步 提升 ,由 
2013 年 12 月 的 81.0% 提 升 至 2015 年 6 月 的 88.9%, 即 中 国 网 民 中 ,接近 9 成 的 用 户 在 
使 用 手机 上 网 ,达到 接近 6 亿 的 规模 。 如 果 一 个 互联 网 企业 没有 在 移动 端的 拳头 产品 ,将 
很 快 被 移动 互联 网 的 浪潮 颠覆 。 

中 国 互联 网 网 民 规 模 的 统计 如 图 7. 10 所 示 。 

从 数据 看 出 ,移动 互联 网 是 互联 网 发 展 最 重要 的 方向 ,因此 ,对 于 拥抱 互联 网 的 企业 
来 说 ,设计 和 运营 好 移动 互联 网 应 用 (以 下 称 APP) 成 为 移动 互联 网 时 代 最 重要 的 任务 。 
而 在 移动 互联 网 的 设计 和 和 运营 过 程 中 ,数据 分 析 起 到 很 基础 但 也 很 重要 的 作用 。 在 互联 
网 企业 ,任何 一 个 APP 都 要 事先 规划 好 数据 体系 , 才 允 许 上 线 运营 ,有 了 数据 才 可 以 更 好 
地 科学 运营 。 下 面 将 为 大 家 介绍 APP 的 基础 数据 指标 体系 。 

APP 的 数据 指标 体系 主要 分 为 五 个 维度 ,包括 用 户 规模 与 质量 参与 度 分 析 、 渠 道 分 
析 、 功 能 分 析 以 用 户 属性 分 析 。 用 户 规模 和 质量 维度 主要 是 分 析 用 户 规模 指标 ,这 类 指标 
一 般 为 产品 考核 的 重点 指标 ;参与 度 分 析 主 要 分 析 用 户 的 活跃 度 ; 渠 道 分 析 主 要 分 析 渠 道 
推广 效果 ;功能 分 析 主 要 分 析 功能 活跃 情况 、 页 面 访 问 路 径 以 及 转化 率 ; 用 户 属性 分 析 主 
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要 分 析 用 户 特征 。 
7.4.2 用 户 规模 和 质量 


用 户 规模 和 质量 的 分 析 包括 活跃 用 户 、 新 增 用户 .用户 构 成 ,用 户 留 存 率 、 每 个 用 户 总 
活跃 天 数 五 个 常见 指标 。 用 户 规模 和 质量 是 APP 分 析 最 重要 的 维度 ,其 指标 也 是 相对 其 
他 维度 最 多 ,产品 负责 人 要 重点 关注 这 个 维度 的 指标 。 

1. 活跃 用 户 指标 

活跃 用 户 指 在 某 统计 周期 内 启动 过 应 用 (APP) 的 用 户 。 活 跃 用 户 数 一 般 按照 设备 维 
度 统计 , 即 统计 一 段 周期 内 启动 过 的 设备 (如 手机 、 平 板 电脑 ) 数 量 。 活 跃 用 户 是 衡量 应 用 
用 户 规模 的 指标 。 通 常 ,一 个 产品 是 否 成 功 ,如 果 只 看 一 个 指标 ,那么 这 个 指标 一 定 是 活 
跃 用 户 数 。 很 多 互联 网 企业 对 产品 负责 人 的 KPI 考核 指标 都 以 活跃 用 户 数 作为 考核 指 
标 。 活 跃 用 户 数 根据 不 同 统计 周期 可 以 分 为 日 活跃 数 (DAU)、 周 活跃 数 (WAU) 月 活跃 
数 (MAU)。 

大 多 数 希 望 用 户 每 天 都 打开 的 应 用 如 新 闻 APP、 社 交 APP、 音 乐 APP 等 ,其 产品 的 
KPI 考核 指标 均 为 日 活路 用户 数 (DAU)。 为 什么 ? 如 果 这 些 APP 考核 的 指标 是 月 活跃 
用 户 数 ,那么 会 出 现 什 么 状况 ? 

月 活跃 用 户 只 要 求 用 户 在 一 个 月 内 启动 应 用 一 次 既 可 以 计算 为 月 活跃 用 户 , 所 以 ,一 
个 本 应 该 每 天 都 要 启动 的 应 用 ,如 果 用 月 活跃 用 户 数 作为 KPI 来 考核 ,那么 会 出 现 产品 
运营 负责 人 “偷懒 ”的 情况 ,产品 运营 人 员 只 需要 每 月 想 办 法 让 用 户 启动 一 次 即 可 ,也 许 向 
用 户 推送 两 三 个 活动 就 可 以 实现 ,这 样 的 考核 会 导致 产品 不 够 吸引 力 甚至 是 不 健康 的 。 
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如 果 用 日 活跃 用 户 来 作为 KPI 来 考核 这 个 产品 ,那么 产品 运营 负责 人 一 定 会 设计 让 用 户 
每 天 都 想 用 的 功能 或 者 更 新 每 天 用 户 都 想 看 的 内 容 来 吸引 用 户 来 使 用 。 

2. 新 增 用 户 指标 

新 增 用 户 是 指 安装 应 用 后 ,首次 启动 应 用 的 用 户 。 按 照 统计 时 间 跨 度 不 同 分 为 日 、 
周 月 新 增 用 户 。 新 增 用 户 量 指标 主要 是 衡量 营销 推广 渠道 效果 的 最 基础 指标 ; 另 一 方 
面 ,新 增 用 户 占 活跃 用 户 的 比例 也 可 以 用 于 衡量 产品 健康 度 。 如 果 某 产品 新 用 户 占 比 过 
高 , 那 说 明 该 产品 的 活跃 是 靠 推广 得 来 ,这 种 情况 非常 值得 关注 ,尤其 是 关注 用 户 的 留存 
率 情况 。 

3. 用户 构 成 指标 

用 户 构成 是 对 周 活跃 用 户 或 者 月 活跃 用 户 的 构成 进行 分 析 , 有 助 于 通过 新 老 用 户 结 
构 了 解 活跃 用 户 健康 度 。 以 周 活跃 用 户 为 例 , 周 活跃 用 户 包括 以 下 几 类 用 户 , 包 括 本 周 回 
流 用 户 、 连 续 活跃 nn 周 用 户 、 忠 诚 用 户 、 连 续 活跃 用 户 。 

本 周 回流 用 户 是 指 上 周 未 启动 过 应 用 ,本 周 启动 应 用 的 用 户 ; 连 续 活 跃 n 周 用 户 是 指 
连续 nn 周 ,每 周至 少 启动 过 一 次 应 用 的 活跃 用 户 ; 忠 诚 用 户 是 指 连续 活跃 5 周 及 以 上 的 用 
户 ;连续 活跃 用 户 是 指 连续 活跃 2 周 及 以 上 的 用 户 ; 近 期 流失 用 户 是 指 连续 nn 周 (大 于 等 
于 1 周 ,但 小 于 等 于 4 周 ) 没 有 启动 过 应 用 但 用 户 。 

4, 用 户 留 存 率 指标 


用 户 留存 率 是 指 在 某 一 统计 时 段 内 的 新 增 用 户 数 中 再 经 过 一 段 时 间 后 仍 启动 该 应 用 
的 用 户 比例 。 用 户 留 存 率 可 重点 关注 次 日 .7 日 .14 日 以 及 30 日 留存 率 。 

次 日 留存 率 即 某 一 统计 时 段 (如 今天 ) 新 增 用 户 在 第 二 天 (如 明天 ) 再 次 启动 应 用 的 
比例 。 

7 日 留存 率 即 某 一 统计 时 段 (如 今天 ) 新 增 用 户 数 在 第 7 天 再 次 启动 该 应 用 的 比例 。 

14 日 和 30 日 留存 率 以 此 类 推 。 

用 户 留存 率 是 验证 产品 用 户 吸 引力 很 重要 的 指标 。 通 常 ,我 们 可 以 利用 用 户 留 存 率 
对 比 同一 类 别 应 用 中 不 同 应 用 的 用 户 吸 引力 。 如 果 对 于 某 一 个 应 用 ,在 相对 成 熟 的 版 本 
情况 下 ,如 果 用 户 留存 率 有 明显 变化 , 则 说 明 用 户 质 量 有 明显 变化 ,很 可 能 是 因为 推广 渠 
道 质 量 的 变化 所 引起 的 。 

5 个 个 用 户 监 活跃 天 数 指标 

每 个 用 户 的 总 活跃 天 数 指标 (Total Active Days per user,TAD) 是 在 统计 周期 内 , 平 
均 每 个 用 户 在 应 用 的 活跃 天 数 。 如 果 统 计 周 期 比较 长 ,如 统计 周期 一 年 以 上 ,那么 ,每 个 
用 户 的 总 活跃 天 数 基本 可 以 反映 用 户 在 流失 之 前 在 APP 上 耗费 的 天 数 ,这 是 反映 用 户 质 
量 尤 其 是 用 户 活 跃 度 很 重要 的 指标 。 


7.4.3 参与 度 分 析 


参与 度 分 析 的 常见 分 析 包 括 启动 次 数 分 析 、 使 用 时 长 分 析 、 访 问 页 面 分 析 和 使 用 时 间 
间隔 分 析 。 参 与 度 分 析 主 要 是 分 析 用 户 的 活跃 度 。 
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1. 启动 次 数 指标 


启动 次 数 是 指 在 某 一 统计 周期 内 用 户 启动 应 用 的 次 数 。 在 进行 数据 分 析 时 ,一 方面 
要 关注 启动 次 数 的 总 量 走势 , 另 一 方面 , 则 需要 关注 人 均 启 动 次 数 , 即 同一 统计 周期 的 启 
动 次 数 与 活跃 用 户 数 的 比值 ,如 人 均 日 启动 次 数 , 则 为 日 启动 次 数 与 日 活跃 用 户 数 的 比 
值 ,反映 的 是 每 天 每 用 户 平均 启动 次 数 。 通 常 ,人 均 启 动 次 数 和 人 均 使 用 时 长 可 以 结合 
一 起 分 析 。 

2. 使 用 时 长 

使 用 总 时 长 是 指 在 某 一 统计 统计 周期 内 所 有 从 APP 启动 到 结束 使 用 的 总 计时 长 。 
使 用 时 长 还 可 以 从 人 均 使 用 时 长 , 单 次 使 用 时 长 等 角度 进行 分 析 。 

人 均 使 用 时 长 是 同一 统计 周期 内 的 使 用 总 时 长 和 活跃 用 户 数 的 比值 ; 单 次 使 用 时 长 
是 同一 统计 周期 内 使 用 总 时 长 和 启动 次 数 的 比值 。 

使 用 时 长 相关 的 指标 也 是 衡量 产品 活跃 度 .产品 质量 的 重要 指标 ,道理 很 简单 ,用户 
每 天 的 时 间 是 有 限 的 且 宝贵 的 ,如 果 用 户 愿 意 在 你 的 产品 投入 更 多 的 时 间 ,证 明 你 的 应 用 
对 用 户 很 重要 。 启 动 次 数 和 使 用 时 长 可 以 结合 在 一 起 分 析 , 如 果 用 户 启动 次 数 多 ,使 用 时 
长 长 , 则 该 APP 则 为 用 户 质量 非常 高 ,用 户 黏 性 好 的 应 用 ,比如 现在 很 流行 的 社交 应 用 。 

3. 访问 页 面 

访问 页 面 数 指 用 户 一 次 启动 访问 的 页 面 数 。 我 们 通常 要 分 析 访 问 页 面 数 分 布 , 即 统 
计 一 定 周期 内 (如 1 天 、7 天 或 30 天 ) 应 用 的 访问 页 面 数 的 活跃 用 户 数 分 布 ,如 访问 1 一 2 
页 的 活跃 用 户 数 .3 一 5 页 的 活跃 用 户 数 .6 一 9 页 的 活跃 用 户 数 .10 一 29 页 的 活跃 用 户 数 、 
30 一 50 页 的 活跃 用 户 数 ,以 及 50 页 以 上 的 活跃 用 户 数 。 同 时 ,我 们 可 以 通过 不 同 统计 周 
期 (但 统计 跨度 相同 ,如 都 为 7 天) 的 访问 页 面 分 布 的 差异 ,以 便于 发 现 用 户 体验 的 问题 。 

4. 使 用 时 间 间 隔 

使 用 时 间 间 隔 是 指 同一 用 户 相 邻 两 次 启动 的 时 间 间 隔 。 我 们 通常 要 分 析 使 用 时 间 间 
隔 分 布 ,一 般 统计 一 个 月 内 应 用 的 用 户 使 用 时 间 间 隔 的 活跃 用 户 数 分 布 ,如 使 用 时 间 间 隔 
在 1 一 天 内 .1 天 .2 天 ……7 天 、8~14 天 、15~30 天 的 活跃 用 户 数 分 布 。 同 时 ,我 们 可 以 
通过 不 同 统计 周期 (但 统计 跨度 相同 ,如 都 为 30 天 ) 的 使 用 时 间 间 隔 分 布 的 差异 ,以 便于 
发 现 用 户 体验 的 问题 。 


7.4.4 渠道 分 析 


渠道 分 析 主 要 是 分 析 各 渠道 在 相关 的 渠道 质量 的 变化 和 趋势 ,以 科学 评估 渠道 质量 ， 
优化 渠道 推广 策略 。 渠 道 分析 需 要 渠道 推广 负责 人 重点 关注 ,尤其 是 目前 移动 应 用 市 场 
渠道 作 次 较为 盛行 的 情况 下 ,渠道 推广 的 分 析 尤 其 是 要 重点 关注 渠道 作 欢 的 分 析 。 

渠道 分 析 包 括 新 增 用 户 、 活 跃 用 户 、 启 动 次 数 、 单 次 使 用 时 长 和 留存 率 等 指标 。 这些 
指标 均 已 阐述 过 ,此 处 不 再 袭 述 。 以 上 提 到 的 只 是 渠道 质量 评估 的 初步 维度 ,如 果 还 需要 
进一步 研究 渠道 ,尤其 是 研究 到 渠道 防 作弊 层面 ,指标 还 需要 更 多 ,包括 : 判断 用 户 使 用 
行为 是 否 正常 的 指标 ,如 关键 操作 活跃 量 占 总 活跃 的 占 比 ,用 户 激活 APP 的 时 间 是 否 正 
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常 ;判断 用 户 设备 是 否 真实 ,如 机 型 .操作 系统 等 集中 度 的 分 析 。 

总 之 ,如 果 要 深入 研究 渠道 作 束 ,算法 的 核心 思想 是 研究 推广 渠道 所 带 来 的 用 户 是 否 
是 真 的 "人 ?在 用 ,从 这 个 方向 去 设计 相关 的 评估 指标 和 算法 ,如 某 渠道 带 来 的 用 户 大 部 分 
集中 在 凌晨 2 点 使 用 APP ,我们 就 认为 这 种 渠道 所 带 来 的 用 户 很 可 能 不 是 正常 人 在 使 
用 ,甚至 可 能 是 机 器 在 作 整 。 


7.4.5 功能 分 析 


功能 分 析 主 要 分 析 功 能 活路 情况、 页 面 访问 路 径 以 及 转化 率 。 这 些 指标 需要 功能 运 
营 的 产品 经 理 重点 关注 。 


1. 功能 活跃 指标 


功能 活跃 指标 主要 关注 某 功 能 的 活跃 人 数 、 某 功能 新 增 用 户 数 、 某 功能 用 户 构 成 . 某 
功能 用 户 留 存 。 这 些 指 标的 定义 与 7.4.2 节 介 绍 的 指标 类 似 。 只 是 ,本 节 只 关注 某 一 功 
能 模块 ,而 不 是 APP 整体 。 

2. 页 面 访问 路 径 分 析 

APP 页 面 访问 路 径 统计 用 户 从 打开 应 用 到 离开 应 用 整个 过 程 钟 每 一 步 的 页 面 访问 
和 跳 转 情况 。 页 面 访问 路 径 分 析 的 目的 是 在 达到 APP 商业 目标 之 下 帮助 APP 用 户 在 使 
用 APP 的 不 同 阶段 完成 任务 ,并且 提 高 任务 完成 的 效率 。APP 页 面 访问 路 径 分 析 需 要 
考虑 以 下 三 方面 问题 : 

(1) APP 用 户 身份 的 多 样 性 ,用 户 可 能 是 你 的 会 员 或 者 潜在 会 员 , 有 可 能 是 你 的 同 
事 或 者 竞争 对 手 等 ; 

(2) APP 用 户 目的 多 样 性 ,不 同 用 户 使 用 APP 的 目的 有 所 不 同 ; 

(3) APP 用 户 访问 路 径 的 多 样 性 ,即使 是 身份 类 似 、 使 用 目的 类 似 ,但 访问 路 径 也 很 
可 能 不 同 。 

因此 ,我 们 在 做 APP 页 面 访问 路 径 分 析 的 时 候 , 需 要 对 APP 用 户 做 细 分 ,然后 再 进 
行 APP 页 面 访问 路 径 分 析 。 最 常用 的 细 分 方法 是 按照 APP 的 使 用 目的 来 进行 用 户 分 
类 ,如 汽车 APP 的 用 户 便 可 以 细 分 为 关注 型 .意向 型 .购买 型 用 户 , 并 对 每 类 用 户 进行 基 
于 不 同 访问 任务 的 路 径 分 析 , 比如 意向 型 的 用 户 ,他 们 进行 不 同 车 型 的 比较 都 有 哪些 路 
径 , 存 在 什么 问题 。 还 有 一 种 方法 是 利用 算法 ,基于 用 户 所 有 访问 路 径 进 行 聚 类 分 析 , 基 
于 访问 路 径 的 相似 性 对 用 户 进行 分 类 ,再 对 每 类 用 户 进行 分 析 。 

3. 漏斗 模型 

漏斗 模型 是 用 于 分 析 产 品 中 关键 路 径 的 转化 率 , 以 确定 产品 流程 的 设计 是 否 合理 ,分 
析 用 户 体验 问题 。 转 化 率 是 指 进入 下 一 页 面 的 人 数 ( 或 页 面 浏览 量 ) 与 当前 页 面 的 人 数 
(或 页 面 浏 览 量 ) 的 比值 。 用 户 从 刚 进 入 到 完成 产品 使 用 的 某 关键 任务 时 (如 购物 ), 不 同 
步骤 之 间 的 转换 会 发 生 损耗 。 如 用 户 进 入 某 电 商 网 站 ,到 浏览 商品 ,到 把 商品 放 和 人 购物 
车 ,最 后 到 支付 ,每 一 个 环节 都 有 很 多 的 用 户 流 失 损耗 。 

通过 分 析 转 化 率 ,我 们 可 以 比较 快 定位 用 户 使 用 产品 的 不 同 路 径 中 , 那 一 路 径 是 否 存 
在 问题 。 当 然 ,对 于 产品 经 理 ,其 实 不 用 每 天 都 看 转化 率 报表 ,我 们 可 以 对 每 天 的 转化 率 


进行 连续 性 的 监控 ,一 旦 转化 率 出 现 较 大 的 波动 , 便 发 告警 邮件 给 到 相应 的 产品 负责 人 ， 
以 及 时 发 现 产品 问题 。 漏 斗 模型 分 析 转 化 率 如 图 7. 11 所 示 。 





7.11 漏斗 模型 用 于 分 析 产品 中 关键 路 径 的 转化 率 


7.4.6 用 户 属性 分 析 


用 户 属性 分 析 主 要 从 用 户 使 用 的 设备 终端 网 络 及 运营 商 分 析 和 用 户 画 像 角度 进行 
分 析 。 

1. 设备 终端 分 析 

设备 终端 的 分 析 维 度 包括 机 型 分 析 、 分 辩 率 分 析 和 操作 系统 系统 分 析 , 在 分 析 的 时 
候 , 主 要 针对 这 些 对 象 进行 活跃 用 户 .新 增 用 户 数 、 启 动 次 数 的 分 析 。 即 分 析 不 同 机 型 的 
活跃 用 户 数 ,新 增 用 户 数 和 启动 次 数 , 分 析 不 同 分 状 率 设备 的 活跃 用 户 数 、 新 增 用 户 数 和 
启动 次 数 ,分 析 不 同 操作 系统 设备 的 活跃 用 户 数 、 新 增 用 户 数 和 启动 次 数 。 

2. 网 络 及 运营 商 分 析 

网 络 及 运营 商 主要 分 析 用 户 联网 方式 和 使 用 的 电信 运营 商 , 主 要 针对 这 些 对 象 进行 
活跃 用 户 .新 增 用 户 数 、 启 动 次 数 的 分 析 。 即 分 析 联 网 方式 (包括 WiFi、2G、3G、4G) 的 活 
跃 用 户 数 .新 增 用 户 数 和 启动 次 数 ,分 析 不 同 运营 商 ( 中 国 移动 .中 国电 信 、 中 国联 通 等 ) 的 
活跃 用 户 数 、 新 增 用 户 数 和 启动 次 数 。 

3. 地 域 分 析 

主要 分 析 不 同 区 域 ,包括 不 同 省 市 和 国家 的 活跃 用 户 数 .新 增 用户 数 和 启动 次 数 。 

4. 用 户 画 像 分 析 

用 户 画 像 分 析 包 括 人 口 统计 学 特征 分 析 、 用 户 个 人 兴趣 分 析 、 用 户 商业 兴趣 分 析 。 人 
口 统计 学 特征 包括 性 别 、 年 龄 .学历 .收入 .支出 .职业 ,行业 等 ;用 户 个 人 兴趣 指 个 人 生活 
兴趣 爱好 的 分 析 , 如 听 音 乐 .看 电影 ,健身 、 养 宠物 等 ;用 户 商业 兴趣 指 房产 、 汽 车 ,金融 等 
消费 领域 的 兴趣 分 析 。 用 户 画 像 这 部 分 的 数据 需要 进行 相 相关 的 画像 数据 采集 , 才 可 以 
支撑 比较 详细 的 画像 分 析 。 
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7.5 大 数据 营销 业务 模型 


7.5.1 大 数据 对 业务 模式 的 影响 


大 数据 及 其 发 挥 的 作用 将 影响 到 每 一 家 公司 
从 内 到 外 地 改变 我 们 开展 业务 的 方式 。 

公司 在 哪个 领域 运营 ,或 者 公司 是 什么 规模 ,这 都 不 要 紧 , 因 为 数据 收集 分析 和 解读 
变 得 更 加 轻松 便捷 ,将 从 几 个 方面 影响 到 每 家 公司 。 

1. 对 所 有 公司 来 说 ,数据 都 将 成 为 一 项 资产 

如 今 ,就 连 最 小 的 公司 也 都 在 产生 数据 。 如 果 公 司 有 网 站 、 有 社交 媒体 账户 、 接 受信 
用 卡 付款 等 ,甚至 哪怕 它 是 一 家 只 有 一 人 经 营 的 小 店 , 都 能 从 其 客户 ,客户 体验 、 网 站 流量 
等 等 方面 收集 数据 。 这 意味 着 各 种 规模 的 公司 都 需要 一 个 针对 大 数据 的 战略 ,并 对 如 何 
收集 ,使 用 和 保护 数据 制订 计划 。 这 也 意味 着 精明 的 企业 将 开始 向 各 公司 提供 数据 服务 ， 
哪怕 对 方 是 一 家 非常 小 的 公司 。 

它 也 意味 着 从 来 没 想 过 大 数据 将 “为 它们 所 用 的 ”企业 和 行业 会 争 着 迎头 赶 上 。 如 果 
你 拥有 或 经 营 一 家 企业 ,并 且 你 想 知 道 如 何 对 企业 做 出 改进 ,那么 你 需要 借助 数据 ,数据 
就 是 一 项 资产 , 它 可 用 于 改进 企业 运营 情况 。 

2. 大 数据 能 让 公司 收集 更 高 质量 的 市 场 和 客户 情报 

不 管 你 喜 不 喜欢 ,你 与 之 开展 业务 的 公司 了 解 你 的 很 多 情况 一 一 它们 所 掌握 的 有 关 
你 的 信息 的 数量 和 类 别 每 年 都 在 扩大 。 每 家 公司 (从 监控 我 们 开车 情况 的 汽车 制造 商 到 
了 解 我 们 打球 频率 和 水 平 的 网 球拍 生产 商 ) 都 将 对 客户 想 要 什么 、 使 用 什么 .通常 从 哪个 
渠道 购买 等 拥有 更 加 深入 的 了 解 。 

男 一 方面 公司 需要 对 制订 和 执行 隐私 政策 采取 积极 主动 的 态度 ,所 有 的 系统 和 安全 
防护 措施 都 要 到 位 ,以 保护 这 些 用 户 数据 。 我 们 从 近期 免费 升级 的 Microsoft 10 身上 可 
以 看 到 ,大 多 数 人 会 允许 公司 收集 这 些 数据 ,但 他 们 希望 公司 对 收集 了 什么 数据 以 及 为 什 
么 收集 保持 透明 ,同时 他 们 希望 可 以 选择 不 参与 数据 收集 流程 。 

3. 大 数据 具备 提高 工作 效率 并 改进 运营 的 潜力 

从 使 用 传感器 到 追踪 机 器 性 能 、 优 化 送 货 路 线 、. 更 好 地 追踪 员工 绩效 甚至 招募 项 级 人 
才 , 大 数据 具备 能 够 提高 几乎 任何 类 型 的 企业 及 众多 不 同 部 门 内 部 工作 效率 并 改进 运营 
的 潜力 。 

公司 可 以 使 用 传感器 追踪 货运 和 机 器 的 运行 情况 ,也 可 以 追踪 员工 绩效 。 各 公司 已 
开始 使 用 传感器 追踪 员工 的 移动 .压力 水 平 、 健 康 状 况 甚至 他 们 与 谁 交谈 以 及 使 用 的 语 
调 等 。 

此 外 ,如 果 数 据 能 够 成 功 量化 一 名 优秀 CEO 所 应 具备 的 特质 , 它 就 能 用 来 改进 任何 
一 个 层级 的 人 力 资源 和 招聘 流程 。 

数据 正 从 IT 部 门 脱离 ,成 为 一 家 公司 中 所 有 部 门 不 可 分 割 的 一 部 分 。 
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4. 数据 可 让 公司 改进 客户 体验 并 将 大 数据 植 人 其 提供 的 产品 中 

在 所 有 可 能 的 领域 ,公司 都 将 使 用 它们 收集 的 数据 改进 产品 和 客户 体验 。 它 不 仅 使 
用 数据 让 自己 的 客户 受益 ,还 把 数据 作为 一 个 新 的 产品 提供 给 客户 。 

现代 大 型 拖拉 机 公司 所 有 新 生产 的 拖拉 机 都 配备 了 传感器 ,能 够 帮助 该 公司 了 解 设 
备 是 如 何 使 用 的 ,同时 预测 并 诊断 故障 。 但 公司 安装 传感器 也 是 为 了 帮助 农场 主 ,为 他 们 
提供 何 时 种 植 作物 、 在 哪里 种 植 .最 佳 的 耕作 和 收割 模式 等 等 方面 的 数据 。 对 于 一 家 大 型 
拖拉 机 公司 来 说 ,这 已 成 为 一 个 全 新 的 收入 来 源 。 

随 着 我 们 生活 中 联网 的 事物 越 来 越 多 一 从 智能 便 温 器 到 Apple Watch 和 健身 追 
踪 器 一 一 公司 会 有 越 来 越 多 的 数据 分 析 报告 和 信息 回 售 给 顾客 。 


7.5.2 大 数据 时 代 的 网 络 化 精确 营销 


营销 策略 制定 的 其 中 一 大 难题 便 是 如 何 配置 各 项 营销 资源 ,在 思考 这 个 问题 的 时 候 ， 
需要 深入 了 解 自 家 使 用 者 的 特性 ,并 了 解 不 同 营销 管道 是 否 能 与 使 用 者 的 特性 搭配 。 除 
此 之 外 ,分 析 现 有 营销 管道 的 绩效 ,也 是 一 项 判断 的 重要 依据 。 以 下 将 介绍 如 何 利 用 网 站 
存 取 数据 (Access Log ,如 Google Analytics) ,初步 分 析 各 网 络 营销 渠道 的 绩效 。 

要 分 析 各 营销 渠道 的 绩效 ,首先 需要 定义 绩效 的 指标 ,许多 网 站 有 其 成 立 的 目标 , 例 
如 ,销售 商品 .取得 注册 会 员 数 等 ,这 些 指标 在 此 统称 为 “转换 数 ”(conversion)。 定 义 绩 
效 指标 后 , 便 可 进行 两 个 分 析 步 又 : 

(1) 统计 各 流量 来 源 的 转换 数 与 转换 率 。 

(2) 比较 各 流量 来 源 的 转换 情况 ,拟定 改善 计划 。 

1. 步 又 一 : 统计 各 流量 来 源 的 转换 数 与 转换 率 

存 取 数据 中 有 一 项 功能 ,能 够 追踪 网 站 的 流量 来 源 , 我 们 可 以 透 过 这 项 功能 ,将 网 站 
不 同 流量 来 源 分 类 整理 总 流量 .转换 数 及 转换 率 。 整 理 的 同时 ,建议 加 入 各 流量 来 源 的 到 
达 页 面 以 及 页 面 流程 ( 称 为 一 个 沟通 流程 ) ,更 能 交叉 分 析出 有 用 的 信息 。 

例如 以 关键 词 自然 搜索 为 例 , 通 过 搜寻 beBit 这 个 公司 名 称 进 入 网 站 的 流量 在 过 去 
一 季 共 有 11 000 次 ,其 中 有 300 次 成 功 注册 会 员 ( 转 换 率 为 3%)。 搜 寻 beBit 进入 网 站 的 
沟通 流程 为 : 进 站 页 面 为 首页 ,之 后 流 经 品类 列表 ,最 后 到 达 商 品 页 后 成 功 转换 (这 是 一 
个 转换 率 为 3% ,相对 较 好 的 沟通 流程 ) 。 

2、 步 又 一 : 比较 各 沟通 流程 的 转换 率 , 找 出 问题 所 在 

搜集 了 各 入 口 转换 数 的 到 达 页 及 流入 过 程 后 (沟通 流程 ) ,可 以 分 析 各 个 沟通 流程 与 
用 户 的 沟通 绩效 。 除 了 流程 图 之 外 ,还 可 以 作成 表格 整理 流入 过 程 ,以 便 分 析 比 较 。 

在 站 外 广告 与 自然 搜索 的 入 口中 ,如 果 以 商品 页 为 到 达 页 面 , 转 换 率 明显 偏 低 。 此 时 
我 们 可 以 回头 检视 是 不 是 站 外 广告 与 商品 页 无 法 连贯 说 服 使 用 者 。 在 这 里 还 可 以 更 进 一 
步 进 行 交 叉 分 析 , 站 外 广告 进入 商品 页 的 用 户 特征 (例如 ,重复 造访 vs 新 造访 ,会 员 vs 非 
会 员 、 人 口 变量 ……), 取 得 该 营销 渠道 无 法 成 功 转换 使 用 者 的 更 深度 因素 ,以 判别 是 要 改 
善 该 渠道 的 沟通 内 容 , 或 者 是 舍弃 该 营销 渠道 。 

以 上 是 从 分 析 现 有 的 营销 渠道 绩效 ,做 出 营销 资源 规划 的 初步 判断 。 倘 车 需要 评估 
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新 的 营销 渠道 的 投资 潜力 ,建议 也 是 回 到 使 用 者 角度 ,了 解 网 站 的 目标 用 户 接触 到 该 渠道 
的 情境 (时 间 、 地 点 .方式 ,心态 ) ,以 判断 该 渠道 与 使 用 者 的 接触 点 与 说 服 力 ,进一步 判定 
是 否 具有 投资 潜力 。 


7.5.3 移动 互联 和 大 数据 时 代 的 电子 商务 


我 们 有 幸 生 活 在 一 个 互联 网 时 代 , 尤 其 是 移动 互联 的 时 代 , 这 是 一 个 大 数据 的 时 代 。 
这 个 时 代 里 人 们 的 生活 方式 正在 被 改变 ,创新 的 商务 模式 不 断 地 涌现 。 

中 国 的 电子 商务 已 经 全 面 超过 美国 ,不 管 是 从 线 上 的 总 销售 额 ,还 是 线 上 销售 在 全 社 
会 零售 的 占 比 ,还 是 增 速 。 中 国 的 网 购 人 群 已 经 超过 美国 人 口 ,但 是 发 展 的 空间 还 是 巨大 
的 。 美 国 的 网 购 渗透 率 超过 了 75% ,而 中 国 的 网 购 渗透 率 才刚 过 50% ,潜力 巨大 。 

在 这 个 过 程 中 ,移动 商务 的 发 展 是 井喷 式 的 ,移动 商务 很 快 就 成 了 所 有 电 商 的 主 
战场 。 

电子 商务 有 以 下 一 些 优势 : 

(1) 首先 它 不 受 地 域 限制 ,一 网 覆盖 全 国 乃 至 全 球 。 第 二 , 它 不 受 时 间 限 制 , 它 可 以 
7X24 小 时 服务 。 第 三 , 它 可 以 有 无 穷 的 货架 ,增加 商品 只 是 增加 服务 器 。 还 有 一 个 就 是 
大 数据 。 大 数据 允许 我 们 更 多 地 了 解 顾客 ,提供 精准 的 营销 和 个 性 化 服务 。 而 移动 商务 
在 这 几 个 优势 的 基础 上 又 增加 了 很 多 的 新 的 优势 。 

(2) 移动 客户 端 ,尤其 是 智能 手机 的 发 展 ,其 扫描 和 图 像 识 别 功能 可 以 方便 顾客 的 搜 
索 。 现 在 已 经 可 以 用 智能 手机 拍摄 一 个 图 片 ,把 这 个 图 片 里 面 的 所 有 商品 识别 出 来 ,把 这 
个 商品 和 其 最 契合 的 款式 .颜色 和 品牌 , 找 出 来 ,匹配 起 来 ,再 迅速 地 链接 到 相关 的 店 里 
去 ,方便 顾客 立即 购买 。 

有 了 智能 手机 ,可 以 随时 知道 你 在 什么 地 方 ,及 时 告诉 你 周边 有 什么 服务 有 什么 商品 
适合 你 。 有 了 大 数据 可 以 分 析 到 这 个 顾客 的 喜好 ,可 以 分 析 跟 这 个 顾客 同类 画像 的 顾客 
群 的 喜好 ,给 你 推送 适合 你 的 商品 。 十 多 年 前 ,大 家 谈 物 联网 ,可 是 如 果 没 有 智能 手机 , 没 
有 可 穿戴 设备 ,没有 各 种 感应 设备 的 话 , 也 只 是 个 概念 。 现 在 这 些 概念 都 变 成 现实 。 

移动 购物 有 新 的 特征 ,因为 大 家 把 零散 的 碎片 化 的 时 间 利 用 起 来 ,可 以 在 上 班 的 路 
上 ,可 以 在 地 铁 里 ,可 以 在 公交 车 上 ,可 以 在 旅游 的 过 程 中 ,可 以 在 任何 的 场景 随时 购物 。 
所 以 购物 的 特征 更 频繁 ,更 零碎 ,每 单 总 价 降低 ,但 是 购买 的 频次 增高 。 大 家 发 现 , 回 到 家 
的 晚上 ,甚至 躺 在 床上 都 可 以 购物 ,节假日 根本 不 需要 打开 电脑 ,随时 可 以 购物 。 这 是 新 
的 特征 。 

(3) 大 众 营 销 即 将 消失 ,至少 这 个 时 代 取 代 它 的 是 窗 众 营销 。 现 在 ,我 们 将 顾客 分 为 
宅男 .丽人 、 辣 妈 、 新 客 四 个 角色 ,这 样 至 少 可 以 部 分 精准 地 为 顾客 服务 。 手 机 客户 端 现在 
能 做 到 千 人 四 面 ,我 们 更 希望 做 到 千 人 千 面 。 但 是 终极 目标 是 精准 营销 ,每 一 个 顾客 都 有 
适合 自己 的 最 精准 的 信息 ,比如 说 我 上 新 浪 体育 只 看 NBA 或 高 尔 夫 , 我 不 喜欢 看 足球 看 
体操 ,每 天 给 我 看 这 些 没有 用 ,给 我 看 NBA 就 行 了 。 我 是 高 血压 患者 ,不 需要 看 糖尿 病 
的 内 容 ,你 向 我 推广 糖尿 病 的 药 是 没有 任何 意义 的 。 这 时 候 就 节约 了 营销 成 本 ,最 后 也 是 
让 顾客 受益 。 生 产 也 从 早期 的 批量 生产 变 成 批量 定制 ,终极 目标 是 C2B, 针 对 每 一 个 个 人 
的 喜好 和 所 需 来 制造 。 
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(4) 电 商 是 更 智能 化 更 本 地 化 ,社交 化 和 个 性 化 的 。 大 家 设想 一 下 ,如 果 上 任何 一 个 
网 站 也 好 APP 也 好 ,一 上 去 就 知道 你 是 谁 ,知道 你 的 画像 ,知道 你 在 什么 地 方 , 知 道 现在 
是 什么 季节 ,知道 在 这 个 季节 里 面 适合 你 的 是 什么 样 的 服务 和 商品 ,最 后 给 你 提供 你 最 适 
合 的 需求 。 你 感觉 这 个 网 站 就 是 为 你 服务 的 ,这 就 是 未 来 的 电 商 ,这 就 是 基于 移动 和 基于 
大 数据 的 电 商 。 


7.5.4 大 数据 营销 的 定义 与 特点 


大 数据 营销 是 基于 多 平台 的 大 量 数 据 , 依 托 大 数据 技术 的 基础 上 ,应 用 于 互联 网 广告 
行业 的 营销 方式 。 大 数据 营销 衍生 于 互联 网 行业 ,又 作用 于 互联 网 行业 。 依 托 多 平台 的 
大 数据 采集 ,以 及 大 数据 技术 的 分 析 与 预测 能 力 , 能 够 使 广告 更 加 精准 有 效 ,给 品牌 企业 
带 来 更 高 的 投资 回报 率 。 

1. 大 数据 营销 的 定义 

大 数据 营销 是 指 通过 互联 网 采集 大 量 的 行为 数据 ,首先 帮助 广告 主 找 出 目标 受众 ， 
以 此 对 广告 投放 的 内 容 \ 时 间 、 形 式 等 进行 预 判 与 调配 ,并 最 终 完 成 广告 投放 的 营销 
过 程 。 

大 数据 营销 , 随 着 数字 生活 空间 的 普及 ,全 球 的 信息 总 量 正 呈 现 爆 炸 式 增长 。 基 于 这 
个 趋势 的 ,是 大 数据 、 云 计算 等 新 概念 和 新 范式 的 广泛 兴起 ,它们 无 疑 正 引领 着 新 一 轮 的 
互联 网 风潮 。 

2. 大 数据 营销 的 特点 

1) 多 平台 化 数据 采集 

大 数据 的 数据 来 源 通常 是 多 样 化 的 ,多 平台 化 的 数据 采集 能 使 对 网 民 行为 的 刻画 更 
加 全 面 而 准确 。 多 平台 采集 可 包含 互联 网 ,移动 互联 网 、 广 电网 、 智 能 电视 未 来 还 有 户外 
智能 屏 等 数据 。 

2) 强调 时 效 性 

在 网 络 时 代 , 网 民 的 消费 行为 和 购买 方式 极 易 在 短 的 时 间 内 发 生变 化 。 在 网 民 需 求 
点 最 高 时 及 时 进行 营销 非常 重要 。 全 球 领先 的 大 数据 营销 企业 AdTime 对 此 提出 了 时 间 
营销 策略 , 它 可 通过 技术 手段 充分 了 解 网 民 的 需求 ,并 及 时 响应 每 一 个 网 民 当 前 的 需求 ， 
让 他 在 决定 购买 的 “黄金 时 间 ” 内 及 时 接收 到 商品 广告 。 

3) 个 性 化 营销 

在 网 络 时 代 , 广 告 主 的 营销 理念 已 从 “媒体 导向 ”向 “受众 导向 ”转变 。 以 往 的 营销 活 
动 须 以 媒体 为 导向 ,选择 知名 度 高 ,浏览 量 大 的 媒体 进行 投放 。 如 今 ,广告 主 完全 以 受众 
为 导向 进行 广告 营销 ,因为 大 数据 技术 可 让 他 们 知晓 目标 受众 身 处 何方 ,关注 着 什么 位 置 
的 什么 屏幕 。 大 数据 技术 可 以 做 到 当 不 同 用 户 关注 同一 媒体 的 相同 界面 时 ,广告 内 容 有 
所 不 同 ,大 数据 营销 实现 了 对 网 民 的 个 性 化 车 销 。 

4) 性 价 比 高 

和 传统 广告 “一 半 的 广告 费 被 浪费 掉 ? 相 比 , 大 数据 营销 在 最 大 程度 上 让 广告 主 的 投 
放 做 到 有 的 放 矢 ,并 可 根据 实时 性 的 效果 反馈 ,及 时 对 投放 策略 进行 调整 。 
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5) 关联 性 

大 数据 营销 的 一 个 重要 特点 在 于 网 民 关注 的 广告 与 广告 之 间 的 关联 性 ,由 于 大 数据 
在 采集 过 程 中 可 快速 得 知 目标 受众 关注 的 内 容 , 以 及 可 知晓 网 民 身 在 何 处 ,这 些 有 价 信息 
可 让 广告 的 投放 过 程 产 生前 所 未 有 的 关联 性 。 即 网 民 所 看 到 的 上 一 条 广告 可 与 下 一 条 广 
告 进 行 深度 互动 。 

3. 大 数据 营销 的 实现 过 程 

大 数据 营销 并 非 是 一 个 停留 在 概念 上 的 名 词 ,而 是 一 个 通过 大 量 运算 基础 上 的 技术 
实现 过 程 。 事实 上 ,国内 的 很 多 以 技术 为 驱动 力 的 企业 也 在 大 数据 领域 深耕 不 辍 。 

全 球 领先 的 大 数据 营销 平台 AdTime 率先 推出 了 大 数据 广告 运营 平台 一 一 云图 。 据 
介绍 ,云图 的 云 代表 云 计算 ,图 代表 可 视 化 。 云 图 的 含义 是 将 云 计算 可 视 化 ,让 大 数据 营 
销 的 过 程 不 再 神秘 。 云 图 是 AdTime 构建 的 大 数据 平台 系统 ,该 系统 具备 海量 数据 、 实 时 
计算 、 跨 网 络 平台 汇聚 、 多 用 户 行为 分 析 、 多 行业 报告 分 析 等 特点 。 

大 数据 营销 是 基于 大 数据 分 析 的 基础 上 ,描绘 .预测 、 分 析 、 指 引 消费 者 行为 ,从 而 帮 
助 企业 制定 有 针对 性 的 商业 策略 。 

大 数据 营销 中 所 依赖 的 数据 ,往往 是 基于 Hadoop 架构 分 类 的 静态 人 群 属 性 和 兴趣 
爱好 常量 ,这 导致 了 大 数据 营销 在 本 质 上 很 难 去 控制 和 捕获 用 户 的 需求 。 

4. 契机 

第 一 ,用 户 行为 与 特征 分 析 。 

只 有 积累 足够 的 用 户 数 据 , 才 能 分 析出 用 户 的 喜好 与 购买 习惯 ,甚至 做 到 “ 比 用 户 更 
了 解 用 户 自己 ”。 这 一 点 , 才 是 许多 大 数据 营销 的 前 提 与 出 发 点 。 

第 二 ,精准 营销 信息 推送 支撑 。 

精准 营销 总 在 被 提 及 ,但 是 真正 做 到 的 少 之 又 少 , 反 而 是 垃圾 信息 泛滥 。 究 其 原因 ， 
主要 就 是 过 去 名 义 上 的 精准 营销 并 不 怎么 精准 ,因为 其 缺少 用 户 特征 数据 支撑 及 详细 准 
确 的 分 析 。 

第 三 ,引导 产品 及 营销 活动 投 用 户 所 好 。 

如 果 能 在 产品 生产 之 前 了 解 潜在 用 户 的 主要 特征 ,以 及 他 们 对 产品 的 期 待 ,那么 你 的 
产品 生产 即 可 投 其 所 好 。 

第 四 ,竞争 对 手 监测 与 品牌 传播 。 

竞争 对 手 在 干什么 是 许多 企业 想 了 解 的 ,即使 对 方 不 会 告诉 你 ,但 你 却 可 以 通过 大 数 
据 监 测 分 析 得 知 。 品 牌 传播 的 有 效 性 亦 可 通过 大 数据 分 析 找 准 方向 。 例 如 ,可 以 进行 传 
播 趋势 分 析 、 内 容 特征 分 析 、 互 动用 户 分 析 、 正 负 情 绪 分 类 ,口碑 品类 分 析 、 产 品 属性 分 布 
等 ,可 以 通过 监测 掌握 竞争 对 手 传播 态势 ,并 可 以 参考 行业 标杆 用 户 策划 ,根据 用 户 声音 
策划 内 容 ,甚至 可 以 评估 微 博 矩 阵 运 营 效果 。 

第 五 ,品牌 危机 监测 及 管理 支持 。 

新 媒体 时 代 , 品 牌 危 机 使 许多 企业 谈 虎 色 变 , 然 而 大 数据 可 以 让 企业 提前 有 所 洞悉 。 
在 危机 爆发 过 程 中 ,最 需要 的 是 跟踪 危机 传播 趋势 ,识别 重要 参与 人 员 ,方便 快速 应 对 。 
大 数据 可 以 采集 负面 定义 内 容 , 及 时 启动 危机 跟踪 和 报警 ,按照 人 群 社会 属性 分 析 , 聚 类 
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事件 过 程 中 的 观点 ,识别 关键 人 物 及 传播 路 径 , 进 而 可 以 保护 企业 .产品 的 声誉 , 抓 住 源头 
和 关键 结 点 ,快速 有 效 地 处 理 危机 。 

第 六 ,企业 重点 客户 筛选 。 

许多 企业 家 纠结 的 事 是 : 在 企业 的 用 户 ,好 友 与 粉丝 中 ,哪些 是 最 有 价值 的 用 户 ? 有 
了 大 数据 ,或 许 这 一 切 都 可 以 更 加 有 事实 支撑 。 从 用 户 访 问 的 各 种 网 站 可 判断 其 最 近 关 
心 的 东西 是 否 与 你 的 企业 相关 ;从 用 户 在 社会 化 媒体 上 所 发 布 的 各 类 内 容 及 与 他 人 互动 
的 内 容 中 ,可 以 找 出 千 丝 万 缕 的 信息 ,利用 某 种 规则 关联 及 综合 起 来 ,就 可 以 帮助 企业 筛 
选 重点 的 目标 用 户 。 

第 七 ,大 数据 用 于 改善 用 户 体验 。 

要 改善 用 户 体验 ,关键 在 于 真正 了 解 用 户 及 他 们 所 使 用 的 你 的 产品 的 状况 ,做 最 适时 
的 提醒 。 例 如 ,在 大 数据 时 代 或 许 你 正 驾驶 的 汽车 可 提前 救 你 一 命 。 只 要 通过 遍布 全 车 
的 传感器 收集 车 辆 运行 信息 ,在 你 的 汽车 关键 部 件 发 生 问题 之 前 ,就 会 提前 向 你 或 4S 店 
预警 ,这 决 不 仅仅 是 节省 金钱 ,而 且 对 保护 生命 大 有 神 益 。 事 实 上 ,美国 的 UPS 快递 公司 
早 在 2000 年 就 利用 这 种 基于 大 数据 的 预测 性 分 析 系统 来 检测 全 美 60 000 辆 车 辆 的 实时 
车 况 , 以 便 及 时 地 进行 防御 性 修理 。 

第 八 ,SCRM 中 的 客户 分 级 管理 支持 。 

面 对 日 新 月 异 的 新 媒体 ,许多 企业 通过 对 粉丝 的 公开 内 容 和 互动 记录 分 析 , 将 粉丝 转 
化 为 潜在 用 户 ,激活 社会 化 资产 价值 ,并 对 潜在 用 户 进行 多 个 维度 的 画像 。 大 数据 可 以 分 
析 活 跃 粉丝 的 互动 内 容 , 设 定 消费 者 画像 各 种 规则 ,关联 潜在 用 户 与 会 员 数据 ,关联 潜在 
用 户 与 客服 数据 ,筛选 目标 群体 做 精准 营销 ,进而 可 以 使 传统 客户 关系 管理 结合 社会 化 数 
据 , 丰 富 用 户 不 同 维度 的 标签 ,并 可 动态 更 新 消费 者 生命 周期 数据 ,保持 信息 新 鲜 有 效 。 

第 九 ,发 现 新 市 场 与 新 趋势 。 

基于 大 数据 的 分 析 与 预测 ,对 于 企业 家 提供 洞察 新 市 场 与 把 握 经 济 走向 都 是 极 大 的 
支持 。 

第 十 ,市 场 预 测 与 决策 分 析 支 持 。 

对 于 数据 对 市 场 预测 及 决策 分 析 的 支持 ,过 去 早 就 在 数据 分 析 与 数据 挖掘 盛行 的 年 
代 被 提出 过 。 沃 尔 玛 著名 的 “啤酒 与 尿布 "案例 即 是 那 时 的 杰作 。 只 是 由 于 大 数据 时 代 上 
述 Volume( 规 模 大 ) 及 Variety( 类 型 多 ) 对 数据 分 析 与 数据 挖掘 提出 了 新 要 求 。 更 全 面 、 
更 及 时 的 大 数据 ,必然 对 市 场 预测 及 决策 分 析 进 一 步 上 台阶 提供 更 好 的 支撑 ;似是而非 或 
错误 的 ,过 时 的 数据 对 决策 者 是 灾难 。 


7.5.5 网 络 营销 大 数据 实际 操作 


对 很 多 企业 来 说 ,大 数据 的 概念 已 不 陌生 ,但 如 何在 营销 中 应 用 大 数据 仍 是 说 易 行 
难 。 其 实 , 作 为 大 数据 最 先 落地 也 最 先 体现 出 价值 的 应 用 领域 ,网 络 营 销 的 数据 化 之 路 已 
有 成 熟 的 经 验 及 操作 模式 。 


1. 获取 全 网 用 户 数据 
首先 需要 明确 的 是 , 仅 有 企业 数据 ,即使 规模 再 大 ,也 只 是 孤岛 数据 。 在 收集 、 打 通 企 


第 7 章 ”大 数据 分 析 与 数据 挖掘 


业内 部 的 用 户 数据 时 ,还 要 与 互联 网 数据 统合 ,才能 准确 掌握 用 户 在 站 内 站 外 的 全 方位 的 
行为 ,使 数据 在 营销 中 体现 应 有 的 价值 。 在 数据 采集 阶段 ,建议 在 搜集 自身 各 方面 数据 形 
成 DMP 数据 平台 后 ,还 要 与 第 三 方 公用 DMP 数据 对 接 ,获取 更 多 的 目标 人 群 数据 ,形成 
基于 全 网 的 数据 管理 系统 。 

2. 让 数据 看 得 懂 

采集 来 的 原始 数据 难以 懂 读 ,因此 还 需要 进行 集中 化 ,结构 化 ,标准 化 处 理 , 让 “天 书 ” 
变 成 能 看 得 懂 的 信息 。 

这 个 过 程 中 ,需要 建立 、 应 用 各 类 “ 库 ”, 如 行业 知识 库 ( 包 括 产品 知识 库 ,关键 词 库 , 域 
名 知识 库 、 内 容 知 识 库 ) ;基于 “数据 格式 化 处 理 库 ”衍生 出 来 的 底层 库 ( 用 户 行为 库 、.URL 
标签 库 ) ;中层 库 (用 户 标签 库 ,流量 统计 、 与 情 评估 ); 用 户 共 性 库 等 。 

通过 多 维 的 用 户 标 签 识别 用 户 的 基本 属性 特征 、 偏 好 、 兴 趣 特 征 和 商业 价值 特征 。 

3. 分 析 用 户 特征 及 偏好 

将 第 一 方 标签 与 第 三 方 标签 相 结合 , 按 不 同 的 评估 维度 和 模型 算法 ,通过 聚 类 方式 将 
具有 相同 特征 的 用 户 划分 成 不 同属 性 的 用 户 族群 ,对 用 户 的 静态 信息 (性 别 、 年 龄 .职业 、 
学 历 . 关 联 和 人群. 生活 习性 等 ) 动态 信息 (资讯 偏好 、 娱 乐 偏好 、 健 康 状况 .商品 偏好 等 ) 、 实 
时 信息 (地 理 位 置 ,相关 事件 .相关 服务 .相关 消费 、 相 关 动 作 ) 分 别 描述 ,形成 网 站 用 户 分 
群 画像 系统 。 

4. 制定 渠道 和 创意 策略 

根据 对 目标 群体 的 特征 测量 和 分 析 结 果 ,在 营销 计划 实施 前 ,对 营销 投放 策略 进行 评 
估 和 优化 。 如 选择 更 适合 的 用 户 群 体 ,匹配 适当 的 媒体 ,制定 性 价 比 及 效率 更 高 的 渠道 组 
合 , 根 据 用 户 特征 制定 内 容 策 略 ,从 而 提高 目标 用 户 人 群 的 转化 率 。 

5. 提升 营销 效率 

在 投放 过 程 中 , 仍 需 不 断 回收 ,分 析 数 据 , 并 利用 统计 系统 对 不 同 渠道 的 类 型 ,时段 、 
地 域 .位 置 等 价值 进行 分 析 , 对 用 户 转 化 率 的 贡献 程度 进行 评估 ,在 营销 过 程 中 进行 实时 
策略 调整 。 

对 渠道 依存 关系 进行 分 析 : 分 析 推 广 渠道 的 构成 类 型 与 网 站 频道 ,栏目 的 关联 程度 
(路 径 图 形 化 十 表格 展示 ); 

对 流量 来 源 进行 分 析 : 分 析 网 站 各 种 推广 渠道 类 型 的 对 网 站 流量 的 贡献 程度 ; 

对 用 户 特征 及 用 户 转化 进行 分 析 : 分 析 各 个 类 型 的 推广 渠道 所 带 来 的 用 户 特征 、 各 
个 推广 渠道 类 型 转化 效率 .效果 和 ROI。 

6. 营销 效果 评估 ,管理 

利用 渠道 管理 和 宣传 制作 工具 ,利用 数据 进行 可 视 化 的 品牌 宣传 事件 传播 和 产品 ， 
制作 数据 图 形 化 工具 ,自动 生成 特定 的 市 场 宣传 报告 ,对 特定 宣传 目的 报告 进行 管理 。 


7. 创建 精准 投放 系统 
对 于 有 意 领先 精准 营销 的 企业 来 说 , 则 可 更 进一步 ,整合 内 部 数据 资源 ,补充 第 三 方 
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站 外 数据 资源 ,进而 建立 广告 精准 投放 系统 ,对 营销 全 程 进行 精细 管理 。 
7.5.6 数据 营销 方法 论 


Google 每 天 要 处 理 大 约 24PB 的 数据 ,Facebook 每 天 要 处 理 23TB 的 数据 ,Twitter 
每 天 处 理 7TB 的 数据 ,百度 每 天 大 概 新 增 10TB 的 数据 。 

腾讯 每 日 新 增加 200 一 300TB 的 数据 ,淘宝 每 日 订单 超过 1000 万 ,阿里 巴巴 已 经 积 
累 的 数据 量 超过 100 个 PB。 考 虑 一 下 ,为 什么 越 是 行业 垄断 巨头 就 越 拥 有 海量 数据 呢 ? 

对 任何 拥有 特有 数据 的 公司 ,都 应 该 考虑 怎么 让 数据 一 利 。 

1. 数据 收集 没 想象 中 那么 复杂 ,重要 的 是 发 现 


很 多 企业 甚至 是 互联 网 企业 ,或 者 不 知道 该 如 何 使 用 手中 已 有 的 数据 资源 ,白白 浪费 
掉 优 化 改进 的 好 机 会 ;或 者 认为 大 数据 只 有 BAT 这 样 的 互联 网 巨头 才 有 ,一 个 小 网 站 或 
APP 应 用 是 没有 大 数据 的 ,果真 是 如 此 吗 ? 

看 一 个 简单 的 例子 一 一 微 博 段子 手 们 最 平常 不 过 的 数据 收集 。 

抛 出 一 个 限定 话题 得 到 各 方 粉 丝 回 应 ,第 二 天 可 参照 由 微 博 点 赞 自动 生成 具有 代表 
性 的 意见 进行 概括 归纳 ,将 1k 十 的 评论 总 结 起 来 制 成 9 条 Tips, 二 次 加 工 后 发 出 获得 
6k 十 转发 .4k 十 评论 和 4k 十 赞 。 

一 个 网 站 或 一 个 APP 所 包含 的 数据 信息 都 是 数字 营销 的 基础 。 

通过 分 析 来 自 网 站 及 竞争 对 手 的 定性 与 定量 数据 ,可 以 驱动 用 户 及 潜在 用 户 在 线 体 
验 的 持续 提升 ,并 提高 数字 营销 业绩 ,如 图 7. 12 所 示 。 
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7.12 网 站 及 竞争 对 手 的 定性 与 定量 数据 






又 如 ,法 国 的 一 些 航空 公司 推出 免费 的 APP 方便 旅客 在 移动 设备 上 跟踪 自己 的 行 
李 , 之 后 在 追踪 的 数据 平台 上 发 现 一 部 分 商务 旅行 客户 中 途 在 某 一 城市 进行 短暂 的 商业 
会 晤 不 需 人 住 酒店 ,行李 成 了 累 更 ,于 是 航空 公司 推出 专人 看 管 全 程 可 追踪 的 增值 服务 ， 
此 项 服务 每 周 的 新 增 价值 大 概 可 达 100 万 美元 。 

正 是 基于 对 数据 的 洞察 产 出 附加 价值 。 对 数据 的 掌控 ,就 是 对 市 场 的 支配 ,意味 着 丰 
厚 的 投资 回报 。 
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2. 数据 是 有 情绪 的 ,假如 别人 要 你 推荐 一 只 股票 

数据 的 形式 多 种 多 样 , 呈 数量 级 爆发 的 UGC 内 容 可 以 被 我 们 拿 来 运用 ? 一 个 新 颖 
点 的 例子 ,譬如 对 于 从 5100 点 十 飞 演 而 下 的 中 国 股市 ,股民 巨 量 的 埋 急 和 牢骚 能 以 怎样 
的 数据 化 形式 展示 ? 

“除了 耐心 等 待 ,最 好 再 找 个 地 方 让 自己 发 泄 一 下 , 找 些 跟 自 己 同病相怜 的 人 ,还 能 组 
解 下 压力 ,避免 跳楼 。 弹 幕 ,就 是 最 好 的 形式 了 。” 一 旦 有 人 建 了 一 个 网 站 ,在 K 线 图 上 配 
上 弹 幕 供 吐槽 …… 

结果 被 同样 郁闷 的 股民 汇集 出 的 数据 随 着 K 线 走势 变化 拥有 了 实时 鲜明 的 情绪 特 
征 , 可 以 在 一 定 程 度 预 估 使 用 者 下 一 步 卖 出 或 继续 持 有 的 动向 ,如 图 7. 13 所 示 。 
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图 7.13 股民 情绪 特征 预测 


1) 股市 数据 

拿 买 股票 来 说 ,推荐 者 会 继续 购买 并 且 推荐 给 其 他 人 来 加 速 某 个 公司 股票 (或 实际 产 
品 ) 的 成 长 ;而 贬损 者 则 能 破坏 其 名 声 ,不 仅仅 停止 购买 ,而 且 劝 说 周围 朋友 ,在 负面 的 口 
碑 中 阻止 其 成 长 ,NPS 净 推 荐 值 则 反映 了 类 似 多 与 空 , 询 与 贬 这 两 股 力 量 较量 的 结果 。 

回 到 广告 ,这 些 来 源 于 门户 或 垂直 类 网 站 、 电 商 平台 购物 用 户 的 打分 与 评论 ,社会 化 
媒体 如 微 博 论坛 微 信 、 应 用 等 的 用 户 评论 文本 数据 以 及 客服 系统 的 语音 数据 和 评价 文 
本 数据 ,可 以 统称 为 “用 户 反馈 数据 ”, 如 图 7. 14 所 示 。 

2) 用 户 调查 表 

我 们 可 以 结构 化 处 理 后 ,进行 数据 挖掘 ,识别 “贬损 者 "和 “推荐 者 ”, 全 面 和 快速 地 计 
算 NPS, 并 了 解 “贬损 者 ”的 贬损 原因 。 

若 进一步 关联 整合 “用 户 行为 数据 ,我 们 还 可 以 了 解 “ 贬 损 者 ”的 历史 “用 户 行为 数 
据 ”, 有 利于 更 好 地 洞察 用 户 情况 ,优化 用 户 体验 和 改进 产品 方向 ;同时 还 能 定向 向 “推荐 
者 ”展开 更 多 的 优惠 促销 或 附加 增值 服务 。 

当 广 告 商 和 掌握 了 数据 ,能 够 向 客户 传输 更 加 相关 的 和 更 加 有 趣 的 信息 ,潜在 客户 们 其 
至 可 以 根据 自己 的 需求 定制 一 些 广告 信息 ,可 能 会 做 出 更 好 的 购物 决策 ,并 有 助 于 广告 商 
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图 7.14 用 户 反馈 数据 
提升 销售 业绩 。 
3. 基本 的 5W1H 问答 也 能 玩 转 消费 行为 数据 ( 科 特 勒 (Kotler) 行 为 选择 模型 

范例 ) 


科 特 勒 (Kotler 行为 选择 ) 模 型 从 市 场 的 特点 来 探讨 消费 者 行为 ,更 容易 进行 定量 
研究 。 

以 推广 营销 某 款 手机 为 例 ,我 们 将 要 研究 的 数据 可 综合 为 5W1H: 

(1) Who & Whom: 购买 这 款 手机 的 人 群 分 类 ? 还 要 弄 清 谁 是 决策 者 , 谁 是 使 用 者 ， 
谁 对 决定 购买 有 重大 影响 以 及 谁 是 实际 购买 者 ; 

(2) What: 不 同 手机 品牌 的 市 场 占有 率 、 具 体型 号 的 销售 情况 ; 

(3) When: 了 解 在 具体 的 季节 、 时 间 其 至 时 点 所 发 生 的 购买 行为 ,比如 配合 节假日 
促销 ; 

(4) Where: 研究 适当 的 销售 渠道 和 地 点 ,还 可 以 进一步 了 解 消费 者 是 在 什么 样 的 地 
理 环境 ,气候 条 件 甚至 于 地 点 场合 使 用 手机 ; 

(5) How: 了 解 消费 者 怎样 购买 喜欢 什么 样 的 促销 方式 ,比如 是 去 线 下 体验 店 还 是 
看 测评 视频 等 ; 

(6) Why: 探索 消费 者 行为 动机 和 偏好 ,比如 为 什么 喜欢 特定 款 手机 并 拒绝 别 的 品 
牌 或 型 号 ? 

不 同 特征 的 消费 者 会 产生 不 同 的 心理 活动 的 过 程 ,通过 其 决策 过 程 导致 了 一 定 的 购 
买 决定 ,最 终 形成 了 消费 者 对 产品 .品牌 经销 商 、 购 买 时 机 、 购 买 数量 的 选择 ,如 图 7. 15 
所 示 。 

数字 营销 人 员 如 果 能 比较 清楚 地 了 解 各 类 购买 者 对 不 同形 式 的 产品 、 服 务 、 价 格 、 促 
销 方式 的 真实 反应 ,就 能 够 适当 地 影响 .刺激 或 诱发 购买 者 的 购买 行为 。 数 据 的 应 用 可 以 
贯穿 营销 价值 链 的 广告 .公关 官网、 电 商 ,CRM 各 个 环节 ,覆盖 用 户 能 力 会 更 加 全 面 和 
强大 。 


4. 数据 是 拿 来 用 的 ,不 仅仅 是 拿 来 看 
买 一 只 股票 尚 需 数 据 分 析 , 展 开 一 项 持续 的 广告 营销 活动 当然 更 应 该 建立 在 有 数据 
衡量 的 基础 上 。 
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营销 | 外 部 消费 者 | 消费 者 消费 者 的 反映 
刺激 | 刺激 特征 | 决策 
产品 | 经 济 | ~| 文化 | 问题 认识 上 -| 人 
价格 | 技术 社会 “| 信息 收集 
地 点 | 政治 个 人 | 评估 决策 购买 数量 
促销 | 文化 心理 “| 购买 行为 





图 7.15 科 特 勒 行为 选择 模型 


比如 Uber 的 数据 科学 家 建立 了 “基于 地 理 位 置 的 打车 需求 模型 "(Location-based 
demand model) ,每 天 实时 更 新 的 热点 地 图 可 以 有 效 帮助 车 主 缩短 空 载 时 间 , 同 时 帮 乘 客 
减少 等 待 时 长 。 

PRADA 在 纽约 的 旗舰 店 中 每 件 衣 服 上 都 有 RFID 码 , 每 一 件 衣服 在 哪个 旗舰 店 什 
么 时 间 被 拿 进 试 衣 间 停留 多 长 时 间 ,数据 都 被 存储 起 来 加 以 分 析 。 某 一 系列 衣服 销量 很 
低 , 以 往 是 被 直接 “干掉 ”"。 但 如 果 RFID 传 回 的 数据 显示 这 系列 的 衣服 虽然 销量 低 但 进 
试 衣 间 的 次 数 多 , 那 就 能 另外 说 明 一 些 问 题 。 

也 许 在 某 个 细节 的 微小 改变 就 会 重新 创造 出 一 件 非常 流行 的 产品 ,这 类 衣服 的 下 场 
会 截然 不 同 。 有 点 像 电 商 分 析 购 物 车 数据 来 提高 转化 率 , 若 大 量 客户 都 选中 了 某 件 商 品 
放 和 人 购物 车 却 没 有 最 终结 算 ,说 明 它 是 热门 产品 ,但 可 能 有 些小 问题 ,适当 变更 价格 或 服 
务 条 款 可 能 就 会 产生 巨大 的 变化 。 

数据 的 使 用 能 够 使 对 企业 的 经 营 对 象 从 客户 的 粗略 归纳 还 原 成 一 个 个 活生生 的 客 
户 , 了 解 他 们 喜欢 什么 讨厌 什么 ,并 更 有 针对 性 , 越 能 满足 客户 的 需要 ,ROI 就 更 高 。 

广告 主 通过 数字 营销 ,更 可 能 运用 全 新 的 视角 来 发 现 新 的 商业 机 会 和 重 构 新 的 商业 
模式 。 过 去 看 不 到 的 东西 都 能 看 到 了 , 即 有 了 全 新 的 视野 。 


7.6 基于 社会 媒体 的 分 析 预 测 技术 


7.6.1 基于 空间 大 数据 的 社会 感知 


大 数据 时 代 产 生 了 大 量具 有 时 空 标记 、 能 够 描述 个 体 行为 的 空间 大 数据 ,如 手机 数 
据 、 出 租车 数据 ,社交 媒体 数据 等 。 这 些 数据 为 人 们 进一步 定量 理解 社会 经 济 环境 提供 了 
一 种 新 的 手段 。 近 年 来 ,计算 机 科学 、 地 理学 和 复杂 性 科学 领域 的 学 者 基于 不 同类 型 数据 
开展 了 大 量 研究 ,试图 发 现 海量 群体 的 时 空 行为 模式 ,并 建立 合适 的 解释 性 模型 。 

“社会 感知 ”(social sensing) 就 是 借助 于 各 类 空间 大 数据 研究 人 类 时 空间 行为 特征 ， 
揭示 社会 经 济 现象 的 时 空 分 布 、. 联 系 及 过 程 的 理论 和 方法 。 值 得 一 提 的 是 ,与 强调 基于 多 
种 传 感 设备 采集 微观 个 体 行为 数据 的 社会 感知 计算 (socially aware computing) 相 比 , 社 
会 感知 更 加 强调 群体 行为 模式 以 及 背后 地 理 空间 规律 挖掘 。 

社会 感知 数据 可 从 三 个 方面 获取 人 的 时 空间 行为 特征 : 

(1) 对 地 理 环境 的 情感 和 认 知 ,如 基于 社交 媒体 数据 获取 人 们 对 于 一 个 场所 的 感受 ; 

(2) 在 地 理 空间 中 的 活动 和 移动 ,如 基于 出 租车 ,签到 等 数据 获取 海量 移动 轨迹 ; 


下 


(3) 个 体 之 间 的 社交 关系 ,如 基于 手机 数据 获取 用 户 之 间 的 通话 联系 信息 。 由 于 空 
间 大 数据 包含 了 海量 人 群 的 时 空间 行为 信息 ,使 得 我 们 可 以 基于 群体 的 行为 特征 揭示 空 
间 要 素 的 分 布 格局 .空间 单元 之 间 的 交互 以 及 场所 情感 与 语义 。 

空间 大 数据 提供 的 社会 感知 手段 ,为 地 理学 乃至 相关 人 文 社会 科学 研究 开启 了 一 种 
“由 人 及 地 ”的 研究 范式 。 而 “社会 感知 ”这 一 概念 , 正 是 概括 描述 了 空间 大 数据 在 相关 研 
究 与 应 用 中 所 提供 的 数据 以 及 方法 上 的 支撑 能 力 。 

1. 社会 感知 分 析 方法 

根据 社会 感知 的 概念 ,对 于 空间 大 数据 的 研究 可 以 分 为 * 人 ”和 “地 ”两 个 层面 。 前 者 
关注 人 的 空间 行为 模式 ,以 及 模式 所 受到 的 地 理 影响 ;后 者 则 侧重 于 在 群体 行为 模式 的 基 
础 上 ,探讨 地 理 环境 的 相关 特征 。 

2. 个 体 行为 模式 分 析 法 

空间 大 数据 可 以 感知 人 的 三 个 方面 的 空间 行为 模式 ,如 图 7. 16 所 示 。 其 中 ,移动 是 
个 体 层次 空间 行为 最 直接 的 外 在 表现 。 由 于 大 数据 对 于 移动 轨迹 的 获取 能 力 较 强 , 因 此 
目前 的 研究 多 集中 在 移动 模式 和 模型 的 建立 。 
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7.16 ”社会 感知 研究 框架 


动物 以 及 人 在 空间 中 移动 所 展示 的 规律 性 是 复杂 系统 领域 研究 的 一 个 重要 议题 。 每 
个 个 体 的 移动 模式 可 以 表示 为 随机 游 走 (random walk) 模 型 。 通 过 对 动物 的 移动 进行 观 
察 ,发 现 其 移动 步 长 和 角度 的 统计 分 布 特征 呈现 一 定 的 模式 ,提高 了 更 食 的 效率 。 当 移动 
方向 均匀 分 布 , 而 步 长 为 寡 律 分 布 , 且 指数 在 1 一 3 之 间 时 ,移动 为 列 维 飞 行 模型 (Levy 
flight) ,如 图 7.17 所 示 。 

与 动物 相 比 ,人 的 出 行 目 的 更 加 多 样 化 ,并 且 存 在 一 个 或 者 多 个 频繁 重 访 地 点 ,这 使 
得 人 的 移动 模式 与 动物 的 移动 模式 存在 机 理 上 的 差异 。 在 海量 个 体 移动 轨迹 数据 的 支持 
下 ,我 们 可 以 观察 人 的 移动 模式 并 构建 相应 的 解释 模型 。 从 布 罗 克 曼 (Brockmann) 等 人 
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7.17 列 微 飞行 模型 的 移动 步 长 分 布 以 及 扩展 特征 


发 表 在 (自然 ) 上 的 基于 钱币 追踪 数据 开展 的 研究 开始 ,许多 学 者 利用 手机 、 出 租车 ,社交 
媒体 签到 等 数据 探讨 了 人 的 移动 模式 ,并 且 试图 建立 解释 性 模型 。 

步 长 的 统计 分 布 是 移动 性 模式 表达 中 的 重要 元 素 。 对 于 移动 轨迹 而 言 ,由 于 距离 衰 
减 , 使 得 长 距离 出 行 的 概率 较 低 , 而 短 距 离 出 行 的 概率 较 高 。 表 征 这 种 分 布 特征 的 函数 有 
宕 律 分 布 .指数 分 布 .指数 截断 的 军 律 分 布 等 。 许 多 学 者 试图 建立 模型 以 解释 观察 到 的 人 
类 移动 模式 。 除 了 距离 衰减 影响 外 ,解释 移动 模式 需要 考虑 的 因素 还 包括 地 理 环境 和 个 
体 的 空间 行为 特征 。 其 中 地 理 环境 因素 决定 了 潜在 的 个 体 移动 到 访 点 的 空间 分 布 , 该 分 
布 通常 与 人 口 密度 分 布 正 相 关 ; 而 个 体 的 空间 行为 特征 则 反映 了 人 们 移动 中 的 一 些 个 性 
化 的 规律 。 

目前 得 到 较 多 关注 的 是 个 体 轨 迹 中 的 重 访 点 ,这 是 人 类 移动 和 动物 移动 存在 较 大 差 
异 的 方面 。 人 类 移动 存在 家 和 工作 地 等 频繁 重 访 的 地 点 ,具有 和 较 高 的 可 预测 性 。 在 地 理 
环境 分 布 特征 方面 ,我 们 通常 从 城市 范围 内 及 城市 间 两 个 尺度 分 别 探讨 移动 性 模式 。 城 
市 范围 内 的 移动 受到 城市 用 地 结构 的 影响 。 

对 于 一 个 城市 而 言 , 通 常 市 中 心 区 土地 开发 强度 较 大 ,居民 出 行 的 密度 相对 较 高 ,而 
在 城市 边缘 地 区 ,土地 利用 强度 和 出 行 密度 都 相对 较 低 。 这 种 地 理 环境 分 布 模式 使 得 城 
市 尺度 的 移动 步 长 分 布 尾 部 不 那么 “ 重 ”"。 而 对 于 城市 间 的 移动 ,城市 体系 中 不 同 规模 的 
城市 空间 分 布 同样 影响 了 观测 到 的 移动 模式 。 

目前 研究 所 采用 的 空间 大 数据 多 数 都 是 “移动 轨迹 丰富 ,活动 信息 不 足 ”, 这 使 得 轨迹 
背后 丰富 的 语义 信息 (尤其 是 出 行 目的 信息 ) 缺 失 。 在 交通 地 理学 研究 中 ,出 行 目 的 是 理 
解 出 行 移动 模式 的 基础 ,不 同 的 出 行 目 的 受到 空间 的 约束 也 不 同 。 一 些 学 者 试图 结合 
迹 数据 .时 间 约束 以 及 地 理 环 境 特征 ,推断 出 行 目的 ,从 而 达到 充实 轨迹 语义 的 目的 。 

个 体 层 次 的 时 空间 行为 除了 移动 和 活动 外 ,社交 关系 (social ties) 也 是 很 重要 的 要 
素 。 利 用 空间 大 数据 可 以 揭示 社交 关系 背后 的 地 理 影 响 。 这 方面 的 研究 主要 包括 个 体 地 
理 位 置 对 于 个 体 间 社交 关系 的 影响 以 及 个 体 空 间 移动 与 社交 关系 的 相互 作用 两 个 方向 ， 
目的 是 探求 空间 距离 和 时 空 共 现 (spatio-temporal co-occurrence) 与 社交 关系 之 间 的 量化 
联系 。 


3， 活动 时 间 变 化 特征 分 类 法 
不 同类 型 的 大 数据 可 以 揭示 一 个 区 域 或 城市 的 活动 以 及 人 口 分 布 状态 。 大 数据 的 时 
间 标 记 可 以 用 于 解释 人 口 分 布 的 动态 变化 特征 。 这 种 变化 特征 往往 具有 较 强 的 周期 性 。 
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276: 


dh 


对 于 城市 研究 而 言 , 尤 其 以 日 周期 变化 最 为 明显 。 城 市 居民 在 居住 地 点 和 工作 地 点 之 间 
的 通勤 行为 产生 了 相关 地 理 单元 人 口 密度 的 时 变 特征 。 因 此 ,我 们 可 以 基于 城市 不 同 区 
域 对 应 的 活动 日 变化 曲线 来 研究 其 用 地 特征 和 在 城市 运行 中 所 承载 的 功能 。 

利用 空间 大 数据 所 提取 的 活动 分 布 特征 感知 土地 利用 类 别 的 基本 依据 是 活动 量 日 变 
化 特征 对 地 块 的 指示 能 力 。 提 取 特 征 时 通常 采用 非 监 督 分 类 方法 ,最 常用 的 算法 有 &- 平 
均 算 法 (k-mean) 聚 类 、k&- 中 心 点 算法 (k-medoid) 聚 类 等 。 我 们 经 常 可 以 看 到 相同 的 土地 覆 被 
对 应 不 同 的 居民 活动 特征 ,而 外 形 相近 的 建筑 可 能 承担 了 不 同 的 社会 功能 ,与 之 相 较 ,利用 
大 数据 提取 活动 分 布 特 征 的 方法 从 活动 角度 更 为 全 面 地 解读 了 城市 土地 利用 情况 。 

在 分 类 过 程 中 ,因为 功能 相同 的 地 块 存在 活动 强度 的 差异 ,如 高 密度 居民 区 和 低 密 度 
居民 区 ,尽管 人 口 总 量 不 同 ,但 是 其 人 口 密度 日 变化 特征 相似 ,故而 在 非 监督 分 类 过 程 中 ， 
通常 需要 对 活动 时 变 曲线 进行 归 一 化 处 理 。 

此 外 ,考虑 城市 居民 工作 日 和 周末 的 不 同 活动 特征 ,在 一 些 研究 中 ,会 将 工作 日 数据 
和 非 工 作 日 数据 分 开 处 理 。 由 于 空间 大 数据 所 提取 的 活动 时 空 分 布 信息 可 以 处 理 成 与 传 
统 遥 感 数据 相似 的 形式 ,因此 除了 非 监督 分 类 外 ,一 些 图 像 处 理 方法 也 可 以 应 用 于 社会 感 
知 数据 。 

近年 来 ,也 有 一 些 研究 采用 主 成 分 分 析 以 及 非 负 和 矩阵 分 解 方法 ,识别 一 个 城市 不 同 区 
域 活动 变化 的 全 局 和 局 部 变化 特征 。 此 外 , 张 量 (tensor) 也 是 分 析 时 空 大 数据 的 有 效 工 
具 , 张 量 模型 的 高 阶 (high order) 表 达能 力 能 够 描述 时 空 数据 在 时 间 、 空 间 \ 个 体 状态 等 多 
方面 的 特征 。 

4. 场所 情感 及 语义 分 析 法 

社交 媒体 ( 推 特 、 微 博 等 ) 中 包含 了 大 量 文本 数据 ,成 为 语义 信息 获取 的 重要 来 源 。 带 
有 位 置 的 社交 媒体 数据 通常 占 3% ,研究 者 可 以 利用 这 部 分 数据 揭示 与 地 理 位 置 有 关 的 
语义 信息 。 目 前 的 研究 主要 包括 三 个 方向 : 

(1) 获取 一 个 场所 的 主题 词 ; 

(2) 获取 与 场所 有 关 的 情感 信息 ,如 高 兴 还 是 抑郁 ; 

(3) 获取 对 于 特定 事件 (如 灾害 ,事故 ,疾病 ) 的 响应 。 由 于 社交 媒体 数据 是 大 量 用 户 
自发 创建 的 ,分 析 语义 信息 及 其 时 空 模式 有 助 于 政策 制定 者 了 解 社 情 民意 并 制定 相关 公 
共 政 策 。 在 社交 媒体 文本 语义 处 理 中 ,潜在 狄 利克 雷 分 配 (Latent Dirichlet Allocation， 
LDA) 模 型 被 广泛 应 用 ,以 确定 每 条 信息 所 表示 的 主题 以 及 相关 的 情绪 信息 。 然 而 ,由 于 
社交 媒体 数据 中 每 条 文本 存在 字数 的 限制 ,并 且 内 容 随 意 性 较 强 ,因此 如 何 从 中 挖掘 更 加 
精确 的 有 意义 的 信息 , 尚 需 进一步 研究 。 

近年 来 ,深度 学 习 技 术 的 发 展 使 得 自动 提取 识别 照片 语义 信息 成 为 可 能 。 一 些 研究 
基于 对 照片 共享 网 站 带 有 时 空 标 记 的 图 像 进行 内 容 分 析 ,揭示 地 理 环境 的 特征 。 

与 基于 文本 的 语义 信息 提取 相 比 ,照片 语义 信息 更 为 客观 且 丰 富 。 每 张 照片 反映 了 
拍照 者 对 于 场所 的 感知 。 考 虑 到 文本 和 照片 不 同 的 表达 能 力 ,可 以 认为 结合 文本 和 照片 
语义 信息 ,能 够 全 面 捕获 一 个 地 理 场所 给 人 们 带 来 的 体验 。 


5. 空间 交互 分 析 
在 地 理学 研究 中 ,空间 交互 (spatial interaction) 指 的 是 两 个 场所 之 间 的 联系 ,通常 可 
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以 基于 人 流 、 货 流 、 资 金 流 等 进行 量化 。 研 究 空间 交互 有 助 于 理解 一 个 区 域内 部 的 结构 以 
及 动态 演化 特征 。 在 空间 大 数据 中 ,个 体 的 移动 轨迹 以 及 个 体 之 间 的 社交 关系 都 可 以 在 
聚集 层面 量化 两 个 场所 之 间 的 交互 强度 ,前 者 如 两 个 城市 间 的 人 流 总 量 ,后 者 如 两 个 城市 
之 间 互 相关 注 的 好 友 对 数 。 空 间 交 互 强 度 受 到 距离 衰减 效应 的 影响 ,距离 远 的 两 个 地 理 
单元 间 的 联系 相对 较 弱 。 因 此 ,在 地 理学 研究 中 ,大 多 基于 重力 模型 来 拟 合 场所 之 间 的 交 
互 强度 ,采用 距离 的 负 短 函 数 (d 一 Bp) 表 示 空 间 阻隔 的 影响 。 

目前 可 用 的 拟 合 方法 有 线性 规划 法 、 代 数 求解 法 、 模 拟 法 等 。 根 据 重力 模型 拟 合 结 
果 , 可 以 通过 距离 衰减 系数 8 来 表征 特定 空间 交互 行为 中 距离 衰减 效应 的 大 小 , 即 8 值 越 
低 , 距 离 的 影响 越 小 。 实 证 研究 表明 ,对 于 居民 在 城市 尺度 的 移动 行为 ,距离 衰减 系数 在 
1 一 2 之 间 , 而 对 利用 手机 、 社 交 媒 体 等 途径 建立 的 空间 交互 ,距离 衰减 效应 尽管 较 弱 
(8<1) ,但 依然 存在 影响 。 

利用 地 理 单元 之 间 的 空间 交互 ,可 以 构建 嵌入 空间 的 网 络 (spatially-embedded 
network) ,并 引入 网 络 分 析 方法 研究 其 结构 特征 。 在 该 网 络 中 ,通常 每 个 结 点 为 一 个 地 
理 单 元 ,而 边 的 权重 为 地 理 单元 间 交 互 的 强度 ,基于 空间 交互 ,构建 嵌入 空间 的 网 络 , 从 而 
引入 网 络 科 学 分 析 方法 ,分 析 研 究 区 的 空间 结构 特征 。 在 复杂 网 络 研 究 中 ,常见 的 分 析 方 
法 是 对 网 络 进行 社区 发 现 (community detection 分析 ,而 网 络 中 的 社区 由 相对 联系 更 为 
紧密 的 结 点 构成 。 对 于 嵌入 空间 的 网 络 而 言 , 一 个 社区 往往 对 应 地 理 空间 中 联系 相对 紧 
密 的 区 域 。 由 于 距离 衰减 效应 以 及 行政 区 划 的 影响 ,如 果 仅 仅 考虑 交互 强度 而 不 考虑 相 
邻 约 东 ,社区 发 现 的 结果 通常 为 空间 上 连续 的 区 块 , 并 且 往 往 与 行政 区 划 边 界 相 一 致 。 

城市 是 空间 大 数据 产生 最 频繁 的 区 域 。 因 此 ,空间 大 数据 的 应 用 研究 目前 主要 集中 
在 城市 区 域 。 相 关 的 研究 领域 有 交通 管理 ,城市 规划 环境. 公共 卫生 等 。 在 此 基础 上 , 郑 
宇 等 提出 了 城市 计算 (urban computing) 的 概念 ,利用 包括 空间 大 数据 在 内 的 城市 多 源 数 
据 进行 计算 分 析 , 发 现 并 解决 城市 运行 中 的 问题 。 

在 上 述 应 用 中 ,除了 空间 大 数据 外 ,还 要 结合 传统 空间 数据 (如 城市 用 地 和 建筑 数据 、 
道路 网 数据 、 检 测 站 点 数据 等 ) 进 行 分 析 。 例 如 ,有 学 者 利用 旧金山 和 波士顿 地 区 的 手机 
数据 和 路 网 数据 ,发 现 了 交通 拥堵 路 段 的 车 流 来 源 , 并 且 给 出 了 缓解 拥堵 的 建议 ;有 学 者 
利用 监测 站 数据 .天气 数 据 以 及 交通 和 人 的 移动 数据 ,推断 城市 的 实时 精细 分 辩 率 空气 质 
量 数据 ,该 结果 有 助 于 城市 居民 规划 户外 活动 。 由 于 空间 大 数据 的 获取 建立 在 海量 群体 
的 空间 行为 的 基础 上 ,因此 使 我 们 能 够 更 好 地 感知 人 的 行为 模式 及 其 与 地 理 环 境 之 间 的 
耦合 模型 。 可 以 认为 建立 在 社会 感知 基础 上 的 公共 政策 制定 ,更 能 够 体现 “以 人 为 本 ”的 
理念 ,有 着 广阔 的 应 用 前 景 。 

空间 大 数据 为 我 们 提供 了 一 条 通过 海量 人 群 的 空间 行为 模式 去 观察 .理解 地 理 环境 
特征 及 影响 的 研究 路 径 。 社 会 感知 概念 的 提出 正 是 概括 了 空间 大 数据 的 这 种 能 力 。 空 间 
大 数据 的 处 理 ,一 方面 需要 有 高 效 的 分 析 方法 , 另 一 方面 需要 对 人 的 行为 动力 学 模型 和 地 
理 环境 特征 有 充分 的 理解 。 因 此 ,需要 信息 科学 、 复 杂 性 科学 、 地 理学 等 不 同学 科 以 及 不 
同 应 用 领域 的 学 者 进行 通力 合作 ,才能 有 效 提取 空间 大 数据 中 所 蕴含 的 信息 ,并 充分 体现 
其 应 用 价值 。 
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7.6.2 基于 社会 媒体 的 预测 技术 


社会 媒体 对 预测 的 作用 有 两 方面 。 一 是 社会 信号 的 采集 。 例 如 ,如 果 发 现 社会 媒体 
上 某 一 特定 区 域 的 人 群 都 在 发 布 信 息 说 :“ 我 感冒 了 ”, 那 么 ,这 一 区 域 很 有 可 能 正在 传播 
流行 性 疾病 , 且 有 爆发 的 趋势 。 二 是 大 众 预测 的 融合 。 例 如 ,美国 大 选 期 间 , 推 特 
(Twitter) 和 脸谱 (Facebook) 在 网 上 掀起 预测 热潮 ,很 多 网 友 在 社会 媒体 上 发 布 自己 的 预 
测 结果 ,这 种 预测 反映 了 社会 媒体 的 群体 智慧 。 

准确 的 预测 结果 对 于 人 们 在 生活 中 的 趋 利 避 害 .工作 计划 决策 起 着 至 关 重 要 的 作用 。 
一 个 决策 产生 的 结果 与 该 决策 本 身 有 着 时 间 上 的 滞后 关系 ,“ 利 ”与 “ 害 ” 总 是 存在 于 未 来 
的 时 间 与 空间 中 ,任何 决策 都 不 可 避免 地 要 依赖 于 预测 。 对 未 来 趋势 提前 做 出 判断 ,有 利 
于 适时 地 调整 计划 以 及 采取 措施 实施 调控 。 

人 类 的 预测 活动 分 为 自然 预测 和 社会 预测 ,分 别 面向 自然 界 和 人 类 社会 。 二 者 又 存 
在 较 大 差异 ,主要 表现 在 主客 体 关 系 .规律 性 质 、 复 杂 程 度 和 不 确定 性 程度 等 几 个 方面 ,如 
表 7.1 所 示 。 


表 7.1 自然 预测 与 社会 预测 的 区 别 

















比较 方面 自然 预测 社会 预测 

主客 体 关系 自然 的 运行 不 因 被 预测 而 受 干扰 互动 反射 关系 (因应 行为 ), 复 杂 博 弈 关系 
规律 性 质 承认 规律 ,了 解 事实 承认 规律 ,了 解 事实 

复杂 程度 小 大 

不 确定 性 小 受 力 面 多 ,不 确定 性 大 

举例 天 气 变化 ,地 震 等 电影 票房 ,总 统 大 选 等 








自然 预测 的 客体 是 自然 现象 ,自然 现象 对 人 类 的 预测 毫 无 感知 能 力 , 其 运行 轨迹 不 会 
因为 预测 而 受到 任何 干扰 。 而 社会 预测 的 客体 本 身 也 是 人 ,人 会 对 预测 结果 产生 因应 行 
为 。 所 谓 因 应 行为 ,是 指 被 预测 的 客体 根据 预测 结果 调整 自己 的 行为 ,使 得 预测 结果 不 
准 。 相 对 而 言 , 社 会 要 比 自然 的 “ 受 力 面 "多 得 多 ,因而 不 确定 性 也 大 得 多 ,对 其 进行 预测 
也 愈加 困难 。 社 会 作为 一 个 由 大 量子 系统 组 成 的 非 线 性 动态 系统 ,在 特定 情况 下 会 对 某 
些微 小 的 变量 极为 敏感 。 基 于 社会 媒体 的 预测 是 指 研究 人 类 广泛 参与 并 与 社会 发 展 变化 
有 关 的 预测 问题 。 

这 种 预测 研究 在 许多 领域 都 有 着 广泛 的 应 用 ,例如 金融 市 场 的 走势 预测 、 产 品 的 销售 
情况 预测 ,政治 大 选 结果 预测 .自然 灾害 的 传播 预测 等 。 以 往 基于 社会 媒体 的 预测 研究 工 
作 主 要 关注 的 是 相关 关系 的 发 现 和 使 用 ,通过 找到 一 个 现象 的 良好 关联 物 来 帮助 了 解 现 
在 和 预测 未 来 。 例 如 ,根据 * 微 博 声 量 以 及 用 户 的 情感 分 析 可 以 预测 股票 的 涨 跌 .电影 票 
房 的 收入 以 及 大 选 结果 等 。 

我 们 需要 站 在 一 个 全 新 的 视角 ,介绍 基于 消费 意图 挖掘 的 预测 以 及 基于 事件 抽取 的 
预测 ,并 通过 挖掘 影响 预测 客体 未 来 走势 的 本 质 原因 进一步 提高 预测 精度 。 

在 图 7. 18 中 ,基于 社会 媒体 的 预测 技术 需要 相关 关系 和 因果 关系 的 共同 支撑 ,相关 
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关系 可 以 从 微 博 声 量 统计 、 情 感 倾 向 性 分 析 、 话 题 抽 取 等 方面 考虑 ,也 可 以 运用 更 复杂 的 
自然 语言 处 理 技术 ,从 相关 事件 的 抽取 和 消费 意图 的 挖掘 方面 进行 研究 。 因 果 关 系 对 预 
测 的 帮助 包括 “由 因 导 果 ” 和 “ 执 果 溯 因 ” 两 方面 ,前 者 是 正 向 地 利用 因果 关系 进行 预测 ,后 
者 是 在 预测 失效 时 逆向 找 出 失效 的 原因 。 
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图 7.18 挖掘 影响 预测 客体 未 来 走势 的 本 质 原因 


7.6.3 基于 消费 意图 挖掘 的 预测 

1. 基于 社会 媒体 的 消费 意图 挖掘 

消费 意图 是 指 消费 者 通过 显 式 或 隐 式 的 方式 来 表达 对 于 某 一 产品 或 服务 的 购买 意 
愿 。 社 会 媒体 用 户 多 ,发 布 的 信息 量 大 。 在 这 些 信息 中 ,用 户 会 表达 各 种 各 样 的 需求 和 兴 
趣 爱 好 。 从 大 量 的 观测 数据 中 ,我 们 发 现 相当 比例 的 社会 媒体 文本 直接 包含 了 用 户 的 某 
种 消费 意图 ,例如 

“体感 游戏 还 不 错 ,考虑 人 手 。 

“好 想 看 (匆匆 那 年 ) 啊 !1” 

“我 儿子 1 岁 了 ,医生 说 有 点 缺 钙 , 需 要 给 孩子 吃 点 什么 呢 ?” 

“天 气 转 冷 , 换 衣 的 季节 到 了 ,今年 流行 什么 款式 和 颜色 ?” 

第 1 条 表达 了 用 户 想 买 体感 游戏 机 ,第 2 条 表达 了 用 户 想 去 看 电影 (匆匆 那 年 ), 第 3 
条 要 买 补 钙 产品 ,第 4 条 想 买 冬装 。 如 果 能 够 很 好 地 挖掘 出 社会 媒体 用 户 对 于 某 一 产品 
的 购买 意愿 ,那么 对 于 预测 该 产品 的 销量 将 有 重要 意义 。 

消费 意图 可 分 成 “ 显 式 消费 意图 ”和 “ 隐 式 消费 意图 ”两 大 类 。 显 式 消费 意图 是 指 在 用 


人 


户 所 发 布 的 微 博文 本 中 , 显 式 地 指出 想 要 购买 的 商品 ,如 第 1、2 两 个 例子 。 而 隐 式 消费 意 
图 是 指 用 户 不 会 在 所 发 布 的 微 博文 本 当中 显 式 地 指出 想 要 购买 的 商品 ,需要 阅读 者 通过 
对 文本 语义 的 理解 和 进一步 推理 才能 够 猜测 到 用 户 想 要 购买 的 商品 ,如 第 3、4 两 个 例子 。 

对 于 显 式 消费 意图 ,很 多 学 者 通过 模式 匹配 的 方法 识别 。 例 如 ,在 识别 观 影 意图 时 ， 
基于 依存 句法 分 析 结 果 构 建 模板 ,识别 对 某 部 电影 具有 显 式 观 影 意 图 的 微 博 ,其 准确 率 可 
以 达到 80% 左 右 。 而 隐 式 消费 意图 的 识别 则 难得 多 ,难点 包括 : 

(1) 如 何 理解 用 户 的 语义 文本 ,进而 理解 用 户 的 消费 意图 。 这 需要 我 们 很 好 地 理解 
和 整合 词汇 级 的 语义 特征 以 及 句子 级 的 语义 特征 。 例 如 ,要 想 识别 出 “我 儿子 1 岁 了 , 医 
生 说 有 点 缺 钙 ,需要 给 孩子 吃 点 什么 呢 ” 这 人 句 话 包含 的 消费 意图 ,需要 理解 关键 词 * 儿 子 ”、 
“ 缺 钙 ”以 及 整个 句子 的 含义 。 

(2) 用 户 消费 意图 的 挖掘 任务 是 领域 相关 的 ,因此 构建 的 模型 需要 具有 领域 自 适应 
能 力 。 

为 了 解决 以 上 难点 ,文献 首次 提出 了 基于 领域 自 适应 卷 积 神经 网 络 的 社会 媒体 用 户 
消费 意图 挖掘 方法 。 卷 积 神经 网 络 对 于 解决 该 任务 有 以 下 两 方面 的 优势 ; 

(1) 卷 积 神经 网 络 中 的 卷 积 层 可 以 以 滑动 窗口 的 方式 捕捉 词汇 级 语义 特征 ,而 马克 
斯 池 (max pooling) 层 则 可 以 很 好 地 将 词汇 级 特征 整合 成 句子 级 语义 特征 ， 

(2) 卷 积 神经 网 络 可 以 学 习 不 同 层次 的 特征 表示 ,而 一 些 特征 表示 则 可 以 在 不 同 领 
域 间 迁移 。 

消费 意图 毕 竞 还 只 是 停留 在 个 人 意愿 层面 ,有 多 少 用 户 会 真正 将 消费 意图 转化 成 消 
费 行为 ,这 是 我 们 更 加 关心 的 话题 ,也 是 对 于 预测 更 有 效 的 特征 。 消 费 意图 识别 的 研究 分 
成 显 式 消费 意图 、 隐 式 消费 意图 和 能 够 转化 成 行为 的 意图 三 个 层次 。 如 图 7. 19 所 示 , 显 
式 消费 意图 是 用 户 消费 意图 这 座 冰山 中 露出 水 面 的 一 角 , 大 部 分 是 隐 式 意图 。 而 无 论 是 
显 式 意 图 ,还 是 隐 式 意图 ,都 只 有 一 部 分 能 够 转化 为 购买 行为 。 





能 够 转化 成 
行为 的 意图 




















7.19 消费 意图 研究 层次 


2. 基于 消费 意图 挖掘 的 电影 票房 预测 

消费 意图 挖掘 在 很 多 方面 都 有 重要 应 用 ,如 推荐 系统 ,产品 销量 预测 等 。 电 影 票 房 预 
测 正 是 消费 意图 研究 的 一 个 成 功 应 用 : 

很 多 与 电影 相关 的 数据 可 以 方便 地 获取 到 。 互 联网 上 有 很 多 与 电影 主题 相关 的 网 
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站 ,例如 美国 电影 资料 库 (Internet Movie Database,IMDB) .中 国 时 光 网 .豆瓣 网 等 。 新 
浪 微 博 每 周至 少 会 有 1000 万 条 以 上 的 消息 讨论 与 电影 相关 的 内 容 。 因 此 ,有 足够 的 数据 
用 于 分 析 影 响 电影 票房 的 因素 。 

电影 的 总 票房 , 周 票房 甚至 是 每 天 的 票房 都 可 以 比较 容易 地 从 IMDB 或 网 票 网 上 获 
得 ,这 有 助 于 我 们 评价 实验 结果 的 好 坏 ,并 不 断 提高 预测 准确 率 。 

社会 媒体 的 消费 意图 数据 与 电影 票房 有 清晰 的 逻辑 相关 性 。 社 会 媒体 用 户 在 某 部 电 
影 上 映 前 发 布 了 关于 某 部 电影 的 消息 ,说 明 他 对 这 部 电影 感 兴趣 并 且 很 有 可 能 会 去 电影 
院 观 看 这 部 电影 。 上 映 前 一 周 的 社会 媒体 数据 相对 于 其 他 时 间 段 的 数据 来 讲 , 与 电影 票 
房 的 关联 性 最 强 。 电 影 上 映 之 后 , 带 有 情感 倾向 性 的 社会 媒体 内 容 变 得 至 关 重 要 。 因 为 
这 类 信息 的 传播 可 以 看 成 是 一 种 口碑 营销 , 它 将 在 很 大 程度 上 影响 潜在 消费 者 。 

基于 消费 意图 理解 的 电影 票房 预测 相对 于 传统 的 电影 票房 预测 而 言 ,可 以 说 是 站 在 
一 个 全 新 的 角度 进行 研究 。 传 统 电影 票房 预测 始 于 20 世纪 80 年 代 末 ,美国 电影 经 济 学 
家 巴 瑞 ， 利 特 曼 (Barry Litman) 在 其 论文 (电影 经 济 成 功 预测 : 基于 80 年 代 人 的 经 验 》 
(Predicting Financial Success of Motion Pictures: The 80’s Experience) 中 首次 提出 了 电 
影 票 房 研究 的 基本 模型 和 方法 。 总 体 来 讲 ,传统 电影 票房 预测 主要 是 基于 电影 相关 的 特 
定 的 结构 化 数据 ,比如 影片 类 型 .美国 电影 协会 分 级 .上 映 时 间 、 是 否 有 续集 等 。 然 而 ,这 
些 方法 要 么 预测 效果 不 佳 ,要 么 需要 一 些 时 间 点 之 后 的 数据 才能 得 出 合理 的 预测 结果 ,很 
难 被 应 用 于 实践 中 。 

近 几 年 ,一 些 工作 向 人 们 展示 了 社会 媒体 在 预测 方面 惊人 的 力量 。 例 如 ,基于 社会 媒 
体 的 选举 结果 预测 流行 病 预 测 、 奥 斯 卡 获奖 预测 、 足 球 比赛 结果 预测 等 。 美 国 惠普 实验 
室 首先 在 基于 社会 媒体 的 电影 票房 研究 中 进行 了 尝试 ,在 他 们 的 研究 中 有 两 个 重要 的 假 
设 : 一 个 是 电影 在 社会 媒体 中 被 提 及 的 次 数 ( 声 量 ) 越 多 ,电影 票房 会 越 高 ; 另 一 个 是 社会 
媒体 用 户 对 电影 的 评价 越 高 ,电影 票房 越 高 。 但 是 ,我 们 仔细 分 析 后 发 现 这 两 个 假设 并 不 
成 立 。 因 为 电影 的 媒体 声 量 大 并 不 一 定 意味 着 电影 的 口碑 好 ;电影 的 口碑 好 ,看 的 人 不 一 
定 就 多 ,口碑 差 ,看 的 人 不 一 定 就 少 。 真 正 能 够 做 到 口碑 与 票房 双赢 的 电影 并 不 多 。 

例如 ,《 三 枪 拍案 惊奇 多 画皮 ) 等 电影 的 口碑 较 低 ( 豆 辩 评分 4. 6 分 ), 但 是 票房 收入 不 
错 ( 票 房 收 入 分 别 是 2.6 亿 元 和 1.6 亿 元 )。 我 们 认为 ,无 论 某 个 产品 在 社会 媒体 上 被 讨 
论 得 多 么 热烈 ,评价 多 么 好 ,最 终 有 多 少 人 愿意 购买 才 是 影响 产品 销量 最 本 质 的 因素 。 另 
外 ,对 于 像 电 影 票 房 这 样 的 预测 对 象 ,是 需要 在 产品 发 布 之 前 给 出 预测 结果 的 。 

然而 ,在 产品 发 布 之 前 没有 产品 的 口碑 数据 ,我 们 只 能 获得 大 众 对 该 产品 的 消费 意图 
数据 (购买 意愿 ) 。 因 此 ,基于 消费 意图 的 电影 票房 预测 打破 了 以 往 的 格局 限制 ,从 最 根本 
的 因素 出 发 来 预测 电影 票房 收入 。 

电影 票房 预测 的 主流 模型 可 分 为 线性 预测 模型 和 非 线性 预测 模型 。 这 两 个 模型 都 存 
在 一 个 前 提 , 即 认为 电影 票房 收入 与 预测 影响 因素 之 间 存 在 线性 或 非 线 性 关系 。 在 首 周 
票房 预测 实验 中 ,线性 回归 模型 实验 结果 要 好 于 非 线性 回归 模型 ,而 在 总 票房 预测 研究 
中 , 非 线性 回归 模型 效果 要 优 于 线性 回归 模型 。 这 表明 电影 上 映 前 一 周 的 数据 与 首 周 票 
房 线性 关系 比较 明显 ,这 时 线性 回归 模型 的 预测 能 力 要 高 于 非 线性 回归 模型 。 随 着 时 间 
的 推移 ,各 种 新 的 因素 不 断 加 入 以 及 一 些 偶然 情况 的 发 生 , 使 得 电影 上 映 前 一 周 的 数据 与 
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总 票房 之 间 的 线性 关系 越 来 越 不 明显 ,而 这 时 线性 回归 模型 的 预测 能 力 就 要 低 于 非 线 性 
回归 模型 。 将 线性 回归 模型 和 非 线性 回归 模型 相 结合 是 相关 研究 未 来 的 一 项 重要 工作 。 


7.6.4 基于 事件 抽取 的 预测 


基于 消费 意图 的 预测 是 从 人 的 主观 角度 出 发 进行 预测 ,而 基于 事件 的 预测 则 是 从 客 
观 的 事实 角度 出 发 进行 预测 。 社 会 媒体 中 报道 的 一 些 事件 会 对 人 们 的 决策 产生 影响 ,而 
人 们 的 决策 又 会 影响 到 他 们 的 交易 行为 ,这 种 交易 行为 最 终 会 导致 金融 市 场 的 波动 。 重 
要 事件 会 导致 股票 市 场 的 剧烈 震荡 ,如 果 能 够 及 时 准确 地 获取 这 些 重要 事件 ,势必 会 有 助 
于 对 金融 市 场 波 动 的 预测 。 

金融 市 场 的 预测 研究 可 分 成 时 间 序 列 交易 数据 驱动 和 文本 驱动 两 个 不 同方 向 。 

时 间 序 列 交易 数据 是 最 早 用 于 建立 预测 模型 的 一 类 数据 ,主要 包括 股票 历史 价格 数 
据 、 历 史 交 易 量 数据 ,历史 涨 跌 数据 等 。 在 传统 的 金融 市 场 预测 研究 中 ,金融 领域 学 者 多 
从 计量 经 济 学 的 角度 出 发 进行 时 间 序 列 分 析 ,进而 预测 市 场 的 波动 情况 。 

文本 驱动 的 金融 市 场 预 测 主 要 是 挖掘 新 闻 报道 和 社会 媒体 中 报道 的 客观 事实 以 及 大 
众 的 情感 波动 。 前 人 的 很 多 研究 工作 表明 ,金融 领域 的 新 闻 在 一 定 程度 上 会 影响 股票 价 
格 的 波动 。 之 后 自然 语言 处 理 技术 逐渐 被 引入 到 金融 市 场 预测 中 。 而 早期 被 应 用 在 文本 
表示 的 技术 主要 是 基于 词 袋 模型 (bag-of-words)。 有 文献 指出 ,基于 词 袋 模型 的 文本 表 
示 方 法 并 不 是 最 优 方案 ,基于 语义 框架 可 以 挖掘 出 更 加 丰富 的 文本 特征 。 

以 上 工作 存在 一 个 共性 的 问题 , 即 没 有 提取 文本 中 的 结构 化 信息 ,而 这 一 信息 对 于 股 
票 涨 跌 预测 非常 重要 。 例 如 , “甲骨 文公 司 诉讼 Google 公司 侵权 ”, 如 果 用 词 袋 模型 表示 ， 
其 形式 为 (“甲骨 文 ”",“ 诉 讼 ”“Google”,“ 侵 权 ”,…}。 我 们 从 中 并 不 能 判断 出 是 甲骨 文公 
司 诉讼 Google 公司 ,还 是 Google 公司 诉讼 甲骨 文公 司 , 也 就 很 难 判 断 出 哪个 公司 的 股价 
会 上 涨 或 下 跌 。 

有 一 种 想法 是 利用 结构 化 的 事件 预测 股票 的 涨 跌 。 对 于 上 面 的 例子 ,如 果 利 用 结构 
化 的 事件 , 则 可 以 表示 成 {( 施 事 :“ 甲 骨 文 ”),( 行 为: “诉讼 ”),( 受 事 :“Google”)}。 由 
此 ,我 们 能 够 清楚 地 知道 是 甲骨 文公 司 诉讼 Google 公司 。 在 此 基础 上 可 预测 Google 公 
司 的 股价 有 可 能 受 影响 而 下 跌 , 而 甲骨 文公 司 的 股价 可 能 会 上 涨 。 


7.6.5 基于 因果 分 析 的 预测 


对 于 许多 预测 问题 来 说 ,因果 分 析 是 十 分 重要 并 且 高 效 的 。 与 相关 性 相 比 , 因 果 的 确 
定性 更 强 。 例 如 疾病 预测 ,行为 预测 和 政策 效用 预测 等 。 对 于 某 些 事件 来 说 , 当 没 有 过 多 
的 相关 性 数据 可 用 时 ,因果 是 最 有 效 的 预测 指南 。 例 如 稀有 事件 预测 新 闻 事件 预测 等 。 
当 基 于 相关 性 的 预测 失效 时 ,因果 更 是 预测 的 唯一 指南 。 因 此 , 当 我 们 对 于 某 一 事物 预测 
不 准 或 者 认识 不 准时 ,一 个 合理 的 做 法 是 分 析 因果 并 使 用 因果 进行 再 认识 。 

1. 因果 关系 概述 

原因 与 结果 是 重要 的 哲学 范畴 。 对 事物 间 因 果 关 系 的 探索 , 自 人 类 诞生 以 来 就 开始 
了 。 因 果 关 系 也 是 人 类 在 漫长 的 社会 实践 中 逐步 总 结 出 来 的 一 个 基本 法 则 ,成 为 人 们 推 
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理事 实 和 认识 未 知 的 指南 。 以 下 把 因果 视 为 关系 、 知 识 和 逻辑 。 

1) 因果 是 关系 

作为 一 种 语义 关系 ,因果 关系 是 语义 理解 和 篇 章 分 析 的 重要 资源 。 

2) 因果 是 知识 

因果 作为 一 种 重要 的 知识 形式 ,是 问答 系统 和 决策 的 重要 依据 和 资源 。 要 回答 “是 什 
么 导致 肿瘤 缩小 "这 类 问题 ,一 个 大 型 的 因果 关系 知识 库 是 必要 的 。 对 于 一 个 现象 或 者 状 
况 的 出 现 ,只 有 知道 导致 它 出 现 的 原因 ,才能 根据 原因 提出 相应 的 对 策 。 作 为 决策 依据 的 
因果 是 区 别 于 相关 的 本 质 特 性 。 

3) 因果 是 逻辑 

作为 逻辑 的 因果 ,是 因果 最 重要 的 方面 。 作 为 科学 逻辑 中 最 重要 的 组 成 部 分 ,因果 他 
辑 体现 在 预测 逻辑 和 解释 多 辑 两 个 方面 。 

因果 与 相关 是 两 个 不 同 的 重要 概念 ,尽管 在 很 多 科学 研究 中 因果 比 相关 更 重要 ,但 是 
目前 大 数据 侧重 于 相关 性 研究 。 相 关 性 分 析 得 到 的 结论 有 时 是 不 可 靠 的 ,甚至 是 错误 的 。 
无 因果 关系 的 两 个 变量 之 间 可 能 会 表现 出 虚假 的 相关 性 。 很 多 例子 可 以 说 明 虚 假 相关 
性 ,如 张 三 和 李 四 的 手表 上 的 时 间 具 有 很 强 的 相关 性 ,但 是 人 为 地 改变 张 三 的 手表 时 间 ， 
不 会 引起 李 四 的 手表 时 间 的 变化 。 

统计 上 的 研究 表明 ,小 学 生 的 阅读 能 力 与 鞋 的 尺寸 有 很 强 的 相关 性 ,但 是 很 明显 它们 
没有 因果 关系 ,人 为 地 改变 鞋 的 尺寸 ,不 会 提高 小 学 生 的 阅读 能 力 。 

因果 关系 也 可 能 表现 出 虚假 的 独立 性 。 统 计 表 明 : 练 太极 拳 的 人 平均 寿命 等 于 或 者 
低 于 不 练 太极 拳 的 人 。 事 实 上 ,太极 拳 确实 可 以 强身 健 体 、 延 长 寿命 ,但 练 太极 拳 的 人 往 
往 是 体弱多病 的 人 ,所 以 表现 出 虚假 的 独立 性 。 

因此 ,表面 上 相关 的 事情 ,实质 上 可 能 并 无 关联 ,更 没有 因果 的 必然 性 ;表面 上 不 相 
关 , 但 可 能 背后 有 因果 关系 。 大 数据 分 析 不 能 只 考 
虑 相关 性 ,也 应 该 考虑 因果 关系 。 

如 图 7. 20 所 示 ,A 代表“ 气温”,B 代表 “冰激凌 
销量 ”,C 代表 “游泳 馆 客 流量 *"。A 是 B 和 C 的 共 
同 原因 ,A 升 高 会 导致 B 和 C 的 增加 。 虽然 B 与 C B 与 C 统 计 相关 
存在 统计 相关 性 ,但 如 果 想 提高 B 显然 不 能 通过 干 
预 C 来 达到 ,而 能 通过 A 的 升 高 来 达到 。 


2. 因果 关系 抽取 


因果 关系 抽取 是 一 个 非常 基础 且 重 要 的 工作 。 抽 取出 的 因果 关系 或 因果 知识 可 用 于 
预测 .问答 等 。 在 文本 中 进行 因果 抽取 就 要 用 到 自然 语言 的 处 理 技术 和 方法 ,如 词性 标 
注 .句法 分 析 、 短 语 抽取 等 。 对 于 因果 关系 抽取 和 检测 任务 来 说 ,前 人 的 工作 所 使 用 的 线 
索 可 以 粗略 地 分 为 三 类 

1) 上 下 文 词 信息 

在 自然 语言 文本 中 ,相同 或 相似 的 句法 结构 对 应 不 同 的 语义 关系 ,上 下 文 信息 对 区 别 
这 种 相同 或 相似 句法 结构 的 不 同 语义 关系 具有 重要 意义 。 文 献 [20] 指 出 ,丰富 的 上 下 文 








图 7.20 因果 关系 与 相关 关系 的 区 别 


下 


信息 对 提高 因果 抽取 的 准确 率 是 非常 必要 的 。 获 得 含有 因果 提 及 的 句子 ,尤其 是 含有 显 
式 因果 提 及 的 句子 是 相对 容易 的 。 

2) 词 之 间 的 关联 信息 

虽然 使 用 因果 关系 触发 词 能 覆盖 大 多 数 情况 ,但 如 果 从 含有 因果 提 及 的 句子 中 抽取 
出 真正 存在 因果 关系 的 “ 词 对 ?或 者 "事件 对 ?是 比较 困难 的 。 有 文献 认为 因果 提 及 中 的 名 
词 之 间 动词 之 间 动词 和 名 词 之 间 的 关联 信息 对 于 识别 因果 来 说 是 非常 有 效 的 资源 。 因 
此 提出 了 一 种 基于 分 布 式 相似 性 的 半 指 导 因果 事件 的 识别 算法 。 

3) 动词 和 名 词 的 语义 关系 信息 

在 自然 语言 中 一 些 词语 本 身 蕴含 着 因果 关系 的 可 能 性 ,例如 英文 的 Increase X、 
Decrease X、Cause X、Preserve X 都 很 可 能 激发 出 一 个 原因 的 结果 ;中 文 的 “增加 了 XxX” 
“避免 了 X”“ 防 止 了 X” 也 具有 同样 的 功能 。 这 些 词 一 般 被 称 为 触发 词 。 

基于 这 种 触发 词 模板 方法 进行 因果 关系 抽取 的 工作 有 很 多 。 例 如 文献 [23], 通 过 把 这 
些 作为 谓语 动词 的 触发 词 模板 人 工地 分 为 CAUSATION .MATERIAL .NECESSITY ,USE、 
PREVENTION 五 类 ,来 区 分 抽取 到 的 因果 关系 的 类 型 ;文献 [24] 使 用 因果 关系 触发 词 抽取 
文本 中 的 名 词 因果 对 ,使 用 这 种 因果 对 来 判断 一 个 句子 是 否 是 描述 因果 逻辑 的 句子 ;一 些 
文献 则 利用 因果 关系 词 在 大 量 的 新 闻 语 料 中 获取 事件 之 间 的 因果 关系 。 


3, 由 因 导 果 


“由 因 导 果 ” 即 因果 的 预测 逻辑 。 看 到 一 个 现象 或 者 一 个 事件 的 发 生 , 我 们 总 想 知道 
未 来 可 能 出 现 的 现象 或 者 发 生 的 事件 。 对 于 预测 未 来 ,因果 无 疑 是 最 有 效 的 指南 和 依据 。 
尤其 是 在 基于 相关 性 分 析 的 预测 失效 时 , 若 能 分 析出 原因 并 利用 原因 进行 预测 , 则 预测 结 
果 会 更 加 可 靠 。 

通过 抽取 大 规模 新 闻 语 料 中 新 闻 事件 和 事件 之 间 的 因果 关系 ,有 文献 把 这 些 因果 事 
件 分 类 、 关 联 , 并 组 成 事件 因果 关系 网 络 , 使 用 这 个 网 络 预测 未 来 事件 。 所 有 的 因果 事件 
都 表示 成 因果 “事件 对 ”的 形式 ,其 中 原因 事件 和 结果 事件 都 尽量 用 六 元 组 形式 表示 。 通 
过 计算 因果 “事件 对 ”之 间 的 相似 性 来 预测 结果 事件 。 

在 利用 因果 来 做 预测 的 工作 中 ,事件 通常 采用 的 是 名 词 短语 或 元 组 的 表示 形式 。 
但 基于 这 种 表示 形式 来 做 事件 的 匹配 ,会 漏 掉 很 多 事件 本 身 的 信息 ,从 而 导致 匹配 的 效果 
不 好 。 另 一 类 问题 是 稀有 事件 的 预测 。 稀 有 事件 是 指 发 生 概率 很 低 的 事件 。 例 如 ,公路 
交通 事故 ,网 络 欺诈 行为 ,网 络 人 侵 行为 ,信用 卡 诈骗 行为 等 。 稀 有 事件 的 预测 是 一 个 非 
常 复杂 的 问题 , 它 需要 有 对 问题 本 身 的 深刻 理解 和 对 问题 中 的 不 确定 性 进行 建 模 。 对 于 
预测 稀有 事件 ,数据 的 稀 朴 性 导致 缺 少 大 量 的 相关 关系 或 相关 事件 。 因 此 ,对 稀有 事件 的 
预测 , 既 需 要 具备 正确 的 因果 知识 ,又 要 能 够 进行 正确 的 因果 分 析 , 同 时 还 能 充分 利用 可 
以 用 到 的 小 样本 数据 。 


4. 执 果 溯 因 


“ 执 果 溯 因 ” 即 因果 的 解释 逻辑 。 看 到 一 个 现象 或 一 个 结果 时 ,我 们 总 想 知道 “为 什 
么 ”。 在 自然 语言 文本 中 ,我 们 对 因果 解释 逻辑 的 诉求 也 是 随处 可 见 。 以 电 商 为 例 , 电 商 
网 站 上 有 大 量 用 户 对 商品 的 评论 信息 ,如 某 些 人 对 商品 A 持 有 积极 评价 , 另 一 些 人 则 对 
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商品 A 吐槽 。 作 为 生产 商 和 销售 商 很 想 知道 ,为 什么 有 些 人 喜欢 ,而 有 些 人 不 喜欢 。 如 
果 能 从 评论 数据 中 进行 分 析 找 到 原因 ,对 生产 商 和 销售 商 来 讲 都 有 重大 意义 。 

在 社会 学 和 大 众 和 与 情 分 析 领 域 ,大 众 对 某 个 社会 事件 或 者 社会 问题 的 情感 和 态度 是 
十 分 重要 的 ,但 是 更 重要 的 是 大 众 持 有 某 种 情感 或 者 态度 的 原因 。 如 果 能 自动 地 从 文本 
中 尤其 是 社会 媒体 文本 中 挖 所 出 这 些 原因 ,这 对 于 理解 民意 ,维护 社会 安定 具有 重大 意 
义 。 类 似 这 种 从 文本 中 分 析 原 因 的 需求 几乎 覆盖 各 行 各 业 。 

在 商业 决策 领域 ,我 们 想 知 道 产品 销量 提高 或 者 降低 的 原因 ,进而 做 出 应 对 ,例如 电 
影 票 房 的 涨 跌 和 广告 宣传 的 因果 作用 分 析 对 于 宣传 策略 的 选择 至 关 重 要 。 在 政治 决策 上 
同样 如 此 。 为 了 分 析 一 个 时 序 变 量 是 否 对 另 一 个 时 序 变量 产生 因果 作用 ,有 文献 提出 了 
一 个 基于 贝 叶 斯 网 络 的 时 间 序 列 模型 。 先 预测 出 一 个 虚拟 结果 ,进而 和 真实 结果 进行 对 
比 来 评价 一 个 变量 对 另 一 个 变量 的 因果 作用 。 比 如 有 一 个 网 站 ,在 某 一 时 刻 1 加 入 了 一 
个 广告 ,那么 这 个 广告 究竟 可 以 带 来 了 多 少 点 击 量 ? 

如 图 7. 21 所 示 , 竖 切 的 虚线 代表 引入 广告 的 分 界线 ,original 部 分 的 实 线 和 虚线 分 别 
表示 真实 的 网 站 点 击 量 曲线 和 不 引入 广告 的 情况 下 的 网 站 点 击 量 曲线 ( 反 事实 点 击 量 曲 
线 ,通过 预测 得 到 )。pointwise 部 分 代表 的 是 真实 曲线 和 反 事 实 曲线 的 差 值 曲线 。 
cumulative 部 分 是 真实 曲线 和 反 事 实 曲线 累积 差 值 。 通 过 观察 累积 差 值 的 大 小 ,可 以 得 
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图 7.21 通过 反 事实 结果 预测 推断 因果 效用 
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到 引入 广告 对 网 站 点 击 量 增加 的 因果 效用 ,比如 得 出 “引入 广告 是 网 站 点 击 量 显 著 增加 的 
原因 ”的 结论 。 


7.7 大 数据 应 用 案例 之 : 如 何 用 大 数据 看 风水 ? 以 星巴克 和 
海底 捞 的 选 址 为 例 


有 人 问 : 你 们 整 天 说 大 数据 , 它 到 底 有 啥 用 啊 ? 下 面 先 介绍 一 下 如 何 用 大 数据 来 看 
“风水 ?1 

说 起 看 风水 开店 选 址 ,大 家 脑海 里 浮现 出 来 的 十 有 八 九 是 风水 先生 们 拿 着 罗盘 走 来 
走 去 的 画面 。 

而 在 互联 网 时 代 ,商家 们 紧 跟 时 代步 伐 已 经 学 会 了 用 大 数据 看 “风水 ”。 简 单 说 来 
就 是 基于 搜索 数据 来 推断 出 来 哪个 地 方 的 用 户 对 服务 和 商品 有 需求 ,相当 于 是 根据 需 
求 的 密集 程度 来 选 址 一 一 这 大 概 是 开店 选 址 最 关键 的 一 步 , 也 是 百度 大 数据 最 独特 的 
地 方 。 

举 个 例子 ,下 面 是 一 份 研究 的 是 星巴克 和 海底 捞 未 覆盖 地 区 的 用 户 对 这 两 家 店 的 需 


求 分 析 的 数据 图 表 如 图 7. 22 和 图 7. 23 所 示 。 


> HaiDiLaoHotDot 
sTARBUCKS。 海底 捞 火 锅 


图 7.22 星巴克 和 海底 捞 
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图 7.23 星巴克 和 海底 捞 未 覆盖 地 区 的 用 户 对 这 两 家 店 的 需求 分 析 


看 完 之 后 是 不 是 发 现 看 不 懂 ? 没关系 ,我 们 已 经 为 你 翻译 好 了 : 
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图 7.23 ( 续 ) 


图 一 : 对 比 一 周 的 需求 , 吃 货 们 在 周末 对 海底 捞 的 需求 高 过 星巴克 。 

图 二 : 在 一 天 之 内 ,单身 狗 喜 欢 在 午饭 后 约 女神 喝 星巴克 。 

图 三 : 七 成 星巴克 消费 者 一 般 选 在 附近 1km, 而 吃 海底 捞 一 般 需 要 跑 更 远 的 距离 (大 
约 3 公 里 )。 

Big Data Lab( 百 度 大 数据 实验 室 ) 要 做 的 就 是 通过 分 析 这 些 时 间 、 空 间 、 网 点 、 交 通 
便利 程度 、 竞 争 对 手 情况 等 等 因素 ,结合 用 户 需求 ,告诉 你 应 该 在 哪里 开店 。 


习题 与 思考 题 


一 、 选 择 题 
1. 某 超市 研究 销售 记录 数据 后 发 现 , 买 啤酒 的 人 很 大 概率 也 会 购买 尿布 ,这 种 属于 
数据 挖掘 的 哪 类 问题 ? ( ) 


A. 关联 规则 发 现 B. 聚 类 C. 分 类 D. 自然 语言 处 理 
2. 数据 挖掘 的 挖掘 方法 包括 (  )。 

A. 聚 类 分 析 B. 回归 分 析 C. 神经 网 络 D. 决策 树 算法 
3. Web 内 容 挖 掘 实现 技术 (  ”)。 

A. 文本 总 结 B. 文本 分 类 C. 文本 聚 类 D. 关联 规则 


4. 社交 网 络 产生 了 海量 用 户 以 及 实时 和 完整 的 数据 ,同时 社交 网 络 也 记录 了 用 户 群 
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体 的 ( ) ,通过 深入 挖掘 这 些 数据 来 了 解 用 户 ,然后 将 这 些 分 析 后 的 数据 信息 推 给 需要 
的 品牌 商家 或 是 微 博 营销 公司 。 
A. 地 址 B. 行为 C. 情绪 D. 来 源 
5. 文本 挖掘 的 工具 有 (  ”)。 
A. SPP Text Mining B. IBM DB2 intelligent Miner 
C. SAS text miner D. SPSS Text Mining 
6. 数据 挖掘 工作 的 四 个 阶段 ,数据 挖掘 占 总 时 间 的 百分比 ( )%, 对 于 成 功 重要 
性 的 百分比 ( ” ”)%。 
A. 50 B. 20 C. 80 D. 60 


7. 美国 海军 军官 英里 通过 对 前 人 航海 日 志 的 分 析 , 绘 制 了 新 的 航海 路 线 图 ,标明 了 
大 风 与 洋流 可 能 发 生 的 地 点 。 这 体现 了 大 数据 分 析 理 念 中 的 (。”)。 


A. 在 数据 基础 上 倾向 于 全 体 数 据 而 不 是 抽样 数据 
B. 在 分 析 方 法 上 更 注重 相关 分 析 而 不 是 因果 分 析 
C. 在 分 析 效 果 上 更 追究 效率 而 不 是 绝对 精确 

D. 在 数据 规模 上 强调 相对 数据 而 不 是 绝对 数据 


. 下 列 关于 低 恩 伯 格 对 大 数据 特点 的 说 法 中 ,错误 的 是 (。”)。 


A. 数据 规模 大 B. 数据 类 型 多 样 
C. 数据 处 理 速度 快 D. 数据 价值 密度 高 


. 下 列 关于 聚 类 挖掘 技术 的 说 法 中 ,错误 的 是 (  )。 


A. 不 预先 设 定数 据 归 类 类 目 ,完全 根据 数据 本 身 性 质 将 数据 聚合 成 不 同类 别 
B. 要 求 同 类 数据 的 内 容 相 似 度 尽 可 能 小 

C. 要 求 不 同类 数据 的 内 容 相 似 度 尽 可 能 小 

D. 与 分 类 挖掘 技术 相似 的 是 ,都 是 要 对 数据 进行 分 类 处 理 


10. 下 列 关 于 大 数据 的 分 析 理 念 的 说 法 中 ,错误 的 是 (  )。 


A. 在 数据 基础 上 倾向 于 全 体 数据 而 不 是 抽样 数据 
B. 在 分 析 方法 上 更 注重 相关 分 析 而 不 是 因果 分 析 
C. 在 分 析 效 果 上 更 追究 效率 而 不 是 绝对 精确 

D. 在 数据 规模 上 强调 相对 数据 而 不 是 绝对 数据 


11. 建立 在 相关 关系 分 析 法 基础 上 的 预测 是 大 数据 的 (  )。 


A. 基础 B. 前 提 C. 核心 D. 条 件 


12. 关于 数据 创新 ,下 列 说 法 正确 的 是 ( ”)。 


A. 多 个 数据 集 的 总 和 价值 等 于 单个 数据 集 价值 相 加 
B. 由 于 数据 的 再 利用 ,数据 应 该 永久 保存 下 去 

C. 相同 数据 多 次 用 于 相同 或 类 似 用 途 , 其 有 效 性 会 降低 
D. 数据 只 有 开放 价值 才能 得 到 真正 释放 


13. 关于 数据 估 值 ,下 列 说 法 错误 的 是 (。”)。 


A. 随 着 数据 价值 被 重视 ,公司 所 持 有 和 使 用 的 数据 也 渐渐 纳入 了 无 形 资产 的 
范畴 


处 ? 


14. 


15. 
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B. 无 论 是 向 公众 开放 还 是 将 其 锁 在 公司 的 保险 库 中 ,数据 都 是 有 价值 的 

C. 数据 的 价值 可 以 通过 授权 的 第 三 方 使 用 来 实现 

D. 目前 可 以 通过 数据 估 值 模型 来 准确 地 评估 数据 的 价值 评估 

以 下 哪 种 说 法 是 错误 的 (  )。 

A. 将 罪犯 的 定罪 权 放 在 数据 手中 ,借以 表达 对 数据 和 分 析 结果 的 崇尚 ,这 实际 
上 是 一 种 滥用 

B. 随 着 数据 量 和 种 类 的 增多 ,大 数据 促进 了 数据 内 容 的 交叉 检验 ,匿名 化 的 数 
据 不 会 威胁 到 任何 人 的 隐私 

C. 采集 个 人 数据 的 工具 就 隐藏 在 我 们 日 常生 活 所 必 备 的 工具 当中 ,比如 网 页 和 
智能 手机 应 用 程序 

D. 预测 与 惩罚 ,不 是 因为 所 做 ,而 是 因为 将 做 

对 大 数据 使 用 进行 正规 评测 及 正确 引导 ,可 以 为 数据 使 用 者 带 来 什么 切实 的 好 
) 。 

A. 他 们 无 须 再 取得 个 人 的 明确 同意 ,就 可 以 对 个 人 数据 进行 二 次 利用 

B. 数据 使 用 者 不 需要 为 敷衍 了 事 的 评测 和 不 达标 准 的 保护 措施 承担 法 律 责任 

C. 数据 使 用 者 的 责任 不 需要 强制 力 规范 就 能 确保 履行 到 位 

D. 所 有 项 目 , 管 理 者 必须 设立 规章 ,规定 数据 使 用 者 应 如 何 评估 风险 .如 何 规避 
或 减轻 潜在 伤害 


-“、 问 答题 


oo 站 品 包 上 性 


. 大 数据 分 析 面 对 的 数据 类 型 有 哪些 ? 

. 简 述 大 数据 分 析 与 处 理 方法 。 

. 数据 挖掘 的 功能 有 哪些 ? 

. 为 什么 说 “大 数据 自动 挖掘 ? 才 是 大 数据 的 真正 意义 ? 

. 为 什么 说 “商务 智能 = 数据 十 分 析 十 决策 十 利益 >? 

. 电 商 大 数据 分 析 需 要 考虑 哪些 方面 ? 

. 简 述 大 数据 营销 的 定义 与 特点 。 

. 谈 一 谈 你 对 网 络 营销 大 数据 业务 模型 和 实际 操作 的 看 法 。 
. 基于 社会 媒体 的 分 析 预 测 技术 有 哪些 ? 
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目前 影响 大 数据 产业 发 展 主要 有 两 个 大 问题 : 一 个 是 大 数据 应 用 场景 ,一 个 是 大 数 
据 隐 私 保护 问题 。 

大 数据 商业 价值 的 应 用 场景 ,大 数据 公司 和 企业 正在 寻找 ,目前 在 移动 互联 网 的 精准 
营销 和 获 客 .360 度 用 户 画像 .房地产 开发 和 规划 、 互 联网 金融 的 风险 管理 、 金 融 行业 的 供 
应 链 金融 ,个 人 征 信 等 方面 已 经 取得 了 进步 ,拥有 了 很 多 经 典 案例 。 

但 在 有 关 大 数据 隐私 保护 以 及 大 数据 应 用 过 程 中 个 人 信息 保护 方面 还 停滞 不 前 ,大 
家 都 在 摸 石头 过 河 , 不 知道 哪些 事情 可 以 做 ,哪些 事情 不 可 以 做 。 国 家 在 大 数据 隐私 保护 
方面 正在 进行 立法 ,估计 不 久 的 将 来 ,大 数据 服务 公司 和 企业 将 会 了 解 大 数据 隐私 保护 方 
面 的 具体 要 求 。 在 没有 明确 有 关 大 数据 隐私 保护 法 规 前 ,我 们 可 以 参考 国外 的 隐私 法 , 严 
格 遵守 国际 上 通用 的 个 人 隐私 保护 法 ,在 实施 大 数据 价值 变现 的 过 程 中 ,充分 保护 所 有 相 
关 方 的 个 人 利益 。 

最 后 纵 观 人 类 历史 ,在 任何 领域 ,如 果 我 们 可 以 拿 到 数据 进行 分 析 , 我 们 就 会 取得 进 
步 。 如 果 我 们 拿 不 到 数据 ,无 法 进行 分 析 ,我们 注定 要 落后 。 过 去 因数 据 不 足 导致 的 错误 
远 远 好 过 那些 根本 不 用 数据 的 错误 ,因此 我 们 需要 掌握 大 数据 这 个 武器 ,利用 好 它 ,帮助 
人 类 社会 加 速 进化 ,帮助 企业 实现 大 数据 的 价值 变现 。 


8.1 大 数据 面临 的 问题 


大 数据 因为 它 所 蕴含 的 潜在 价值 ,正在 成 为 企业 的 隐形 “ 金 矿 ”。 随 着 生产 、 运 营 , 管 
理 、 监 控 、 销 售 、 客 服 等 各 个 环节 的 数据 不 断 累积 和 增长 ,以 及 用 户 数 的 不 断 上 升 ,通过 从 
庞大 的 数据 中 分 析出 相关 模式 以 及 趋势 ,可 以 实现 高 效 管理 ,精准 营销 ,成 为 企业 打开 这 
一 “ 金 矿 ” 的 钥匙 。 然 而 传统 的 IT 基础 架构 和 数据 管理 分 析 方法 已 经 不 能 适应 大 数据 的 
快速 增长 。 大 数据 的 爆发 是 我 们 在 信息 化 和 社会 发 展 中 遇 到 的 棘手 问题 ,需要 采用 新 的 
数据 管理 模式 ,研究 和 发 展 新 一 代 的 信息 技术 才能 解决 。 大 数据 问题 可 归纳 为 表 8. 1 中 
所 列 的 7 类 。 


8.1.1 大 数据 面临 的 安全 问题 


1. 速度 方面 的 问题 


传统 的 关系 型 数据 库 管理 系统 (RDBMS) 一 般 都 是 集中 式 的 存储 和 处 理 , 没 有 采用 分 
布 式 架构 ,在 很 多 大 型 企业 中 的 配置 往往 都 是 基于 IOE(IBM 服务 器 、Oracle 数据 库 、 
EMC 存储 )。 在 这 种 典型 配置 中 单 台 服 务 器 的 配置 通常 都 很 高 ,可 以 多 达 几 十 个 CPU 
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表 8.1 大 数据 问题 
大 数据 问题 分 类 大 数据 问题 描述 


导入 导出 问题 
统计 分 析 问 题 
检索 查询 问题 
实时 响应 问题 


多 源 问题 
种 类 及 架构 问题 异 构 问题 
原 系统 的 底层 架构 问题 


线性 扩展 问题 

动态 调度 问题 

大 机 与 小 型 服务 器 的 成 本 对 比 
原 有 系统 改造 的 成 本 把 控 


数据 分 析 与 挖掘 问题 
数据 挖掘 后 的 实际 增 效 问题 


结构 与 非 结构 
存储 及 安全 问题 数据 安全 
隐私 安全 


数据 标准 与 接口 
共享 协议 
访问 权限 





速度 方面 的 问题 








体 量 及 灵活 性 问题 





成 本 问题 





价值 挖掘 问题 








互联 互通 与 数据 共享 
问题 





核 ,内 存 也 能 达到 上 百 GB; 数 据 库 的 存储 放 在 高 速 大 容量 的 磁 阵 上 ,存储 空间 可 达 TB 
级 。 这 种 配置 对 于 传统 的 信息 管理 系统 (MIS) 需 求 来 说 是 可 以 满足 需求 的 ,然而 面 对 不 
断 增长 的 数据 量 和 动态 数据 使 用 场景 ,这 种 集中 式 的 处 理 方式 就 日 益 成 为 瓶颈 ,尤其 是 在 
速度 响应 方面 捉襟见肘 。 

在 面 对 大 数据 量 的 导入 导出 、 统 计 分 析 、 检 索 查询 方面 ,由 于 依赖 于 集中 式 的 数据 存 
储 和 索引 ,性 能 随 着 数据 量 的 增长 而 急速 下 降 , 对 于 需要 实时 响应 的 统计 及 查询 场景 更 是 
无 能 为 力 。 比 如 在 物 联网 中 ,传感器 的 数据 可 以 多 达 几 十 亿 条 ,对 这 些 数据 需要 进行 实时 
入 库 .查询 及 分 析 , 传 统 的 RDBMS 就 不 再 适合 应 用 需求 。 

2. 种 类 及 架构 问题 

RDMBS 对 于 结构 化 的 固定 模式 的 数据 ,已 经 形成 了 相当 成 熟 的 存储 查询、 统计 处 
理 方式 。 随 着 物 联 网 ,互联 网 以 及 移动 通信 和 网络 的 飞速 发 展 ,数据 的 格式 及 种 类 在 不 断 变 
化 和 发 展 。 在 智能 交通 领域 ,所 涉及 的 数据 可 能 包含 文本 、 日 志 、 图 片 .视频 、 矢 量 地 图 等 
来 自 不 同 数据 采集 监控 源 的 ,不 同 种 类 的 数据 。 

这 些 数据 的 格式 通常 都 不 是 固定 的 ,如 果 采 用 结构 化 的 存储 模式 将 很 难 应 对 不 断 变 
化 的 需求 。 因 此 对 于 这 些 种 类 各 异 的 多 源 异 构 数据 ,需要 采用 不 同 的 数据 和 存储 处 理 模 
式 , 结 合 结构 化 和 非 结构 化 数据 存储 。 在 整体 的 数据 管理 模式 和 架构 上 ,也 需要 采用 新 型 
的 分 布 式 文件 系统 及 分 布 式 NoSQL 数据 库 架 构 ,才能 适应 大 数据 量 及 变化 的 结构 。 


pe 


3. 体 量 及 灵活 性 问题 


如 前 所 述 , 大 数据 由 于 总 体 的 体 量 巨 大 ,采用 集中 式 的 存储 ,在 速度 、 响 应 方面 都 存在 
问题 。 当 数据 量 越 来 越 大 ,并 发 读 写 量 也 越 来 越 大 时 ,集中 式 的 文件 系统 或 单数 据 库 操作 
将 成 为 致命 的 性 能 瓶颈 ,毕竟 单 台 机 器 的 承受 压力 是 有 限 的 。 我 们 可 以 采用 线性 扩展 的 
架构 和 方式 ,把 数据 的 压力 分 散 到 很 多 台 机 器 上 ,直到 可 以 承受 ,这 样 就 可 以 根据 数据 量 
和 并 发 量 来 动态 增加 和 减少 文件 或 数据 库 服 务 器 ,实现 线性 扩展 。 

在 数据 的 存储 方面 ,需要 采用 分 布 式 可 扩展 的 架构 ,比如 大 家 所 熟知 的 Hadoop 文件 
系统 和 HBase 数据 库 。 同 时 在 数据 的 处 理 方面 ,也 需要 采用 分 布 式 的 架构 ,把 数据 处 理 
任务 分 配 到 很 多 计算 结 点 上 ,同时 还 需 考虑 数据 存放 结 点 和 计算 结 点 之 间 的 位 置 相 关 性 。 
在 计算 领域 中 ,资源 分 配 、 任 务 的 分 配 实际 上 是 一 个 任务 调度 问题 。 其 主要 任务 是 根据 当 
前 集群 中 各 个 结 点 上 面 的 资源 (包括 CPU 内存、 存储 空间 和 网 络 资源 等 ) 的 占用 情况 和 
各 个 用 户 作业 服务 质量 要 求 ,在 资源 和 作业 或 者 任务 之 间 做 出 最 优 的 匹配 。 由 于 用 户 对 
作业 服务 质量 的 要 求 是 多 样 化 的 ,同时 资源 的 状态 也 在 不 断 变化 ,因此 ,为 分 布 式 数据 处 
理 找到 合适 的 资源 是 一 个 动态 调度 问题 。 

4. 成 本 问题 

集中 式 的 数据 存储 和 处 理 ,在 对 硬件 软件 选 型 时 ,基本 采用 的 方式 都 是 配置 相当 高 的 
大 型 机 或 小 型 机 服务 器 ,以 及 访问 速度 快 、 保 障 性 高 的 磁盘 阵列 ,来 保障 数据 处 理性 能 。 
这 些 硬 件 设备 都 非常 昂贵 , 动 辑 高 达 数 百 万 元 ,同时 软件 也 经 常 是 国外 大 厂商 如 Oracle、 
IBM、SAP、 微 软 等 的 产品 ,对 于 服务 器 及 数据 库 的 维护 也 需要 专业 技术 人 员 ,投入 及 运 维 
成 本 很 高 。 在 面 对 海 量 数据 处 理 的 挑战 时 ,这 些 厂商 也 推出 了 形似 庞然大物 的 “一 体 机 ” 
解决 方案 ,如 Oracle 的 Exadata、SAP 的 Hana 等 ,通过 把 多 服务 器 、 大 规模 内 存 、 闪 存 、 高 
速 网 络 等 硬件 进行 堆 和 至 ,来 缓解 数据 压力 ,然而 在 硬件 成 本 上 ,更 是 大 幅 跳高 ,一 般 的 企业 
很 难 承受 。 

新 型 的 分 布 式 存储 架构 、 分 布 式 数据 库 如 HDFS、HBase、Cassandra、MongoDB 等 由 
于 大 多 采用 去 中 心 化 的 ,海量 并 行 处 理 MPP 架构 ,在 数据 处 理 上 不 存在 集中 处 理 和 汇总 
的 瓶颈 ,同时 具备 线性 扩展 能 力 , 能 有 效 地 应 对 大 数据 的 存储 和 处 理 问题 。 在 软件 架构 
上 ,也 都 实现 了 一 些 自 管理 、 自 恢复 的 机 制 ,以 面 对 大 规模 结 点 中 容易 出 现 的 偶发 故障 , 保 
障 系统 整体 的 健壮 性 ,因此 对 每 个 结 点 的 硬件 配置 ,要 求 并 不 高 ,甚至 可 以 使 用 普通 的 PC 
作为 服务 器 ,因此 在 服务 器 成 本 上 可 以 大 大 节省 ,在 软件 方面 开源 软件 也 占据 非常 大 的 价 
格 优势 。 

当然 ,在 谈 及 成 本 问题 时 ,我 们 不 能 简单 地 进行 硬件 软件 的 成 本 对 比 。 要 把 原 有 的 系 
统 及 应 用 迁移 到 新 的 分 布 式 架 构 上 ,从 底层 平台 到 上 层 应 用 都 需要 做 很 大 的 调整 。 尤 其 
是 在 数据 库 模 式 以 及 应 用 编程 接口 方面 ,新 型 的 NoSQL 数据 库 与 原来 的 RDBMS 存在 
较 大 的 差别 ,企业 需要 评估 迁移 及 开发 成 本 .周期 及 风险 。 除 此 之 外 ,还 需 考 虑 服务 、 培 
训 、 运 维 方面 的 成 本 。 但 在 总 体 趋 势 上 , 随 着 这 些 新 型 数据 架构 及 产品 的 逐渐 成 熟 与 完 
善 ,以 及 一 些 商业 运营 公司 基于 开源 基础 为 企业 提供 专业 的 数据 库 开 发 及 咨询 服务 ,新 型 
的 分 布 式 .可 扩展 数据 库 模式 必 将 在 大 数据 浪潮 中 胜出 ,从 成 本 到 性 能 方面 完胜 传统 的 集 
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中 式 大 机 模式 。 
5. 价值 挖掘 问题 


大 数据 由 于 体 量 巨大 ,同时 又 在 不 断 增长 ,因此 单位 数据 的 价值 密度 在 不 断 降低 。 但 
同时 大 数据 的 整体 价值 在 不 断 提高 ,大 数据 被 类 比 为 石油 和 黄金 ,因此 从 中 可 以 发 掘 巨大 
的 商业 价值 。 要 从 海量 数据 中 找到 潜藏 的 模式 ,需要 进行 深度 的 数据 挖掘 和 分 析 。 大 数 
据 挖掘 与 传统 的 数据 挖掘 模式 也 存在 较 大 的 区 别 : 

传统 的 数据 挖掘 一 般 数据 量 较 小 ,算法 相对 复杂 ,收敛 速度 慢 。 然 而 大 数据 的 数据 量 
巨大 ,在 对 数据 的 存储 、 清 洗 、ETL( 抽 取 、 转 换 、 加 载 ) 方 面 都 需要 能 够 应 对 大 数据 量 的 需 
求 和 挑战 ,在 很 大 程度 上 需要 采用 分 布 式 并 行 处 理 的 方式 ,比如 Google、 微 软 的 搜索 引 
擎 ,在 对 用 户 的 搜索 日 志 进行 归档 存储 时 ,就 需要 多 达 几 百 台 甚 至 上 千 台 服务 器 同步 工 
作 , 才 能 应 付 全 球 上 亿 用 户 的 搜索 行为 。 

同时 ,在 对 数据 进行 挖掘 时 ,也 需要 改造 传统 数据 挖掘 算法 以 及 底层 处 理 架 构 , 同 
样 采用 并 行 处 理 的 方式 才能 对 海量 数据 进行 快速 计算 分 析 。Apache 的 Mahout 项 目 就 
提供 了 一 系列 数据 挖掘 算法 的 并 行 实现 。 在 很 多 应 用 场景 中 ,甚至 需要 挖掘 的 结果 能 
够 实时 反馈 回来 ,这 对 系统 提出 了 很 大 的 挑战 ,因为 数据 挖掘 算法 通常 需要 较 长 的 时 
间 , 尤 其 是 在 大 数据 量 的 情况 下 ,可 能 需要 结合 大 批量 的 离线 处 理 和 实时 计算 才 可 能 
满足 需求 。 

数据 挖掘 的 实际 增 效 也 是 我 们 在 进行 大 数据 价值 挖掘 之 前 需要 仔细 评估 的 问题 。 并 
不 见得 所 有 的 数据 挖掘 计划 都 能 得 到 理想 的 结果 。 首 先 需要 保障 数据 本 身 的 真实 性 和 全 
面 性 ,如 果 所 采集 的 信息 本 身 噪 音 较 大 ,或 者 一 些 关 键 性 的 数据 没有 被 包含 进来 ,那么 所 
挖掘 出 来 的 价值 规律 也 就 大 打折 扣 。 

其 次 也 要 考虑 价值 挖掘 的 成 本 和 收益 ,如 果 对 挖掘 项 目 投入 的 人 力 物 力 、 硬 件 软件 
平台 耗资 巨大 ,项 目 周期 也 较 长 ,而 挖掘 出 来 的 信息 对 于 企业 生产 决策 .成 本 效益 等 方 
面 的 贡献 不 大 ,那么 片面 地 相信 和 依赖 数据 挖掘 的 威力 ,也 是 不 切实 际 和 得 不 偿 失 的 。 


6. 存储 及 安全 问题 


在 大 数据 的 存储 及 安全 保障 方面 ,大 数据 由 于 存在 格式 多 变 、 体 量 巨大 的 特点 ,也 带 
来 了 很 多 挑战 。 针 对 结构 化 数据 ,关系 型 数据 库 管 理 系统 RDBMS 经 过 几 十 年 的 发 展 ,已 
经 形成 了 一 套 完善 的 存储 访问、 安全 与 备份 控制 体系 。 由 于 大 数据 的 巨大 体 量 ,也 对 传 
统 RDBMS 造成 了 冲击 ,如 前 所 述 ,集中 式 的 数据 存储 和 处 理 也 在 转向 分 布 式 并 行 处 理 。 
大 数据 更 多 的 时 候 是 非 结构 化 数据 ,因此 也 衍生 了 许多 分 布 式 文件 存储 系统 ,分 布 式 
NoSQL 数据 库 等 来 应 对 这 类 数据 。 

然而 这 些 新 兴 系 统 , 在 用 户 管理 .数据 访问 权限 .备份 机 制 . 安 全 控制 等 各 方面 还 需 进 
一 步 完 善 。 对 于 安全 问题 , 简 言 之 ,一 是 要 保障 数据 不 丢失 ,对 海量 的 结构 、 非 结构 化 数 
据 , 需 要 有 合理 的 备份 元 余 机 制 , 在 任何 情况 下 数据 不 能 丢 ; 二 是 要 保障 数据 不 被 非法 访 
问 和 窃取 ,只 有 对 数据 有 访问 权限 的 用 户 , 才 能 看 到 数据 , 拿 到 数据 。 

由 于 大 量 的 非 结构 化 数据 可 能 需要 不 同 的 存储 和 访问 机 制 ,因此 要 形成 对 多 源 、 多 类 
型 数据 的 统一 安全 访问 控制 机 制 ,还 是 吸 待 解决 的 问题 。 大 数据 由 于 将 更 多 更 敏感 的 数 


和 


据 汇集 在 一 起 ,对 潜在 攻击 者 的 吸引 力 更 大 ; 若 攻 击 者 成 功 实施 一 次 攻击 ,将 能 得 到 更 多 
的 信息 ,“ 性 价 比 ”更 高 ,这 些 都 使 得 大 数据 更 易 成 为 被 攻击 的 目标 。LinkedIn 在 2012 年 
被 曝 650 万 用 户 账户 密码 泄露 ;雅虎 遭 到 网 络 攻击 ,致使 45 万 用 户 ID 泄露 。2011 年 
12 月 ,CSDN 的 安全 系统 遭 到 黑客 攻击 ,600 万 用 户 的 登录 名 、 密 码 及 邮箱 遭 到 泄露 。 

与 大 数据 紧密 相关 的 还 有 隐私 问题 。 由 于 物 联 网 技术 和 互联 网 技术 的 飞速 发 展 , 与 
我 们 工作 生活 相关 各 类 信息 都 被 采集 和 存储 下 来 ,我 们 随时 暴露 在 “第 三 只 眼 ? 下 面 。 不 
管 我 们 是 在 上 网 . 打 电 话 ,发 微 博 、 微 信 , 还 是 在 购物 .旅游 ,我们 的 行为 都 在 随时 被 监控 分 
析 。 对 用 户 行为 的 深入 分 析 和 建 模 , 可 以 更 好 地 服务 用 户 ,实施 精准 营销 ,然而 如 果 信 息 
泄露 或 被 滥用 , 则 会 直接 侵犯 到 用 户 的 隐私 ,对 用 户 形成 恶劣 的 影响 ,甚至 带 来 生命 财产 
的 损失 。 

2006 年 ,美国 DVD 租赁 商 Netflix 公司 举办 了 一 个 算法 竞赛 。 该 公司 公布 了 大 约 来 
自 50 万 用 户 的 一 亿 条 租赁 记录 ,并 且 公 开 悬 赏 100 万 美元 ,举办 一 个 软件 设计 大 赛 来 提 
高 他 们 的 电影 推荐 系统 的 准确 度 , 胜 利 的 条 件 是 把 准确 度 提高 10%。 尽 管 该 公司 对 数据 
进行 了 精心 的 匿名 化 处 理 , 还 是 被 一 个 用 户 认 出 来 了 ,一 个 化 名 “无 名 氏 ” 的 未 出 柜 的 同性 
恋 母 亲 起 诉 了 Netflix 公司 ,她 来 自 保守 的 美国 中 西部 。 

在 美国 的 微 博 网 站 Twitter. com 上 面 ,很 多 用 户 习 惯 随 时 发 布 他 们 的 位 置 和 动态 信 
息 ,结果 有 几 家 网 站 ,如 PleaseRobMe. com( 请 来 抢 动 我 )、WeKnowYourHouse. com( 我 
知道 你 的 家 ) ,能 够 根据 用 户 所 发 的 信息 ,推测 出 用 户 不 在 家 的 时 间 ,找到 用 户 的 准确 家 庭 
住址 ,甚至 把 房子 的 照片 都 能 找 出 来 。 

他 们 的 做 法 旨 在 提醒 大 家 我 们 随时 暴露 在 公众 视线 下 ,如 果 不 培 养 安全 和 隐私 意识 ， 
将 会 给 自身 带 来 灾难 。 目 前 世界 的 很 多 国家 ,包括 中 国 , 都 在 完善 与 数据 使 用 及 隐私 相关 
的 法 律 ,来 保护 隐私 信息 不 被 滥用 。 

7. 互联 互通 与 数据 共享 问题 

在 我 国 的 企业 信息 化 建设 过 程 中 ,普遍 存在 条 块 分 割 和 信息 孤岛 的 现象 。 不 同行 业 
之 间 的 系统 与 数据 几乎 没有 交集 ,同一 行业 ,比如 交通 社保 系统 内 部 等 ,也 是 按 行政 领域 
进行 划分 建设 , 跨 区 域 的 信息 交互 和 协同 非常 困难 。 严 重 的 甚至 在 同一 单位 内 ,比如 一 些 
医院 的 信息 系统 建设 ,病历 管理 ,病床 信息 药品 管理 等 子 系统 都 是 分 立 建设 的 ,没有 实现 
信息 共享 和 互通 。 

“智慧 城市 ?是 我 国 十 二 五 信息 化 建设 的 重点 ,而 智慧 城市 的 根本 ,是 要 实现 信息 的 互 
联 互 通 和 数据 共享 ,基于 数据 融合 实现 智能 化 的 电子 政务 .社会 化 管理 和 民生 改善 。 因 此 
在 城市 数字 化 的 基础 上 ,还 需 实现 互联 化 ,打通 各 行 各 业 的 数据 接口 ,实现 互联 互通 ,在 此 
之 上 才能 实现 智慧 化 。 比 如 在 城市 应 急 管理 方面 ,就 需要 交通 、 人 口 .公安 、 消 防 、 医 疗 卫 
生 等 各 个 方面 的 数据 和 协助 。 当 前 美国 联邦 政府 建立 的 数据 共享 平台 www. data. gov， 
我 国 北京 市 政府 数据 资源 网 (www. bjdata. gov. cn) 等 都 是 朝 着 数据 开放 数据 共享 的 有 
力 的 尝试 。 

为 实现 跨行 业 的 数据 整合 ,需要 制定 统一 的 数据 标准 、 交 换 接口 以 及 共享 协议 ,这 样 
不 同行 业 ,不 同 部 门 ,不 同 格式 的 数据 才能 基于 一 个 统一 的 基础 进行 访问 、 交 换 和 共享 。 
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对 于 数据 访问 ,还 需 制定 细致 的 访问 权限 ,规定 什么 样 的 用 户 在 什么 样 的 场景 下 ,可 以 访 
间 什 么 类 型 的 数据 。 在 大 数据 及 云 计算 时 代 , 不 同行 业 , 企 业 的 数据 可 能 存放 在 统一 的 平 
台 和 数据 中 心 之 上 ,需要 对 一 些 敏感 信息 进行 保护 ,比如 涉及 企业 商业 机 密 及 交易 信息 方 
面 的 数据 ,虽然 是 依托 平台 来 进行 处 理 , 但 是 除了 企业 自身 的 授权 人 员 之 外 ,要 保证 平台 
管理 员 以 及 其 他 企业 都 不 能 访问 此 类 数据 。 


8.1.2 使 用 大 数据 分 析 安全 与 隐私 的 问题 


曾经 有 程序 员 使 用 WiFi 登录 脚本 扫描 WiFi 密码 数据 ,然后 对 扫描 数据 做 了 简单 
的 分 析 , 以 便 侦 测 中 国家 庭 WiFi 通用 密码 TOP10。 在 整个 扫描 过 程 中 ,所 有 常见 的 密 
码 和 排名 的 比例 保持 稳定 。 因 此 , 它 可 以 是 一 个 基本 的 判断 , 表 8. 2 是 更 准确 的 统计 
概率 。 
表 8.2 中 国家 用 WiFi 常见 密码 TOP10 












































排 名 密 码 数 量 占 比 累计 占 比 
1 12345678 3048 3.256% 3.256% 
2 123456789 2460 2.628% 5.885% 
3 88888888 1453 1.552% 7.437% 
4 1234567890 711 0.760% 8.197% 
5 00000000 406 0.434% 8.631% 
6 87654321 351 0.375% 9.006% 
7 66668888 335 0.358% 9.363% 
8 11223344 316 0.338% 9.701% 
9 147258369 313 0.334% 10.035% 
10 11111111 299 0.319% 10.355% 

该 清单 如 下 : 


从 列表 中 ,前 三 名 的 密码 是 12345678、123456789 和 88888888。 这 三 个 密码 的 总 数 
是 7.437%。 不 要 低估 了 这 7.437% ,实际 上 ,这 已 经 被 认为 非常 可 怕 的 比例 。 因 为 在 九 
个 WiFi 信号 的 情况 下 , WiFi 能 够 突破 这 三 个 密码 的 概率 为 50. 1%! 请 记 下 这 三 个 密 
码 , 以 后 永远 不 要 使 用 它们 。 

我 们 再 往 下 看 ,TOP10 的 密码 列表 涵盖 所 有 WiFi 密码 样本 的 10. 355%。 所 以 中 国 
家 庭 WiFi 的 安全 形势 依然 十 分 严峻 。 

想 知 道 为 什么 你 的 账号 密码 总 是 被 盗 吗 ? 研究 解密 千 万 密码 的 背后 的 密码 心理 学 : 
设 定 什么 样 的 密码 最 安全 ? 数据 基因 公司 的 研究 结果 显示 ,1234 为 最 常用 密码 。 


人 


8.2 大 数据 安全 与 隐私 保护 关键 技术 


8.2.1 基于 大 数据 的 威胁 发 现 技术 


由 于 大 数据 分 析 技 术 的 出 现 ,企业 可 以 超越 以 往 的 “保护 一 检测 一 响应 一 恢复 ” 
(PDRR) 模 式 , 更 主动 地 发 现 潜在 的 安全 威胁 。 例 如 ,IBM 推出 了 名 为 IBM 大 数据 安全 
智能 的 新 型 安全 工具 ,可 以 利用 大 数据 来 侦 测 来 自 企 业内 外 部 的 安全 威胁 ,包括 扫描 电子 
邮件 和 社交 网 络 , 标 示 出 明显 心 存 不 满 的 员工 ,提醒 企业 注意 ,预防 其 泄露 企业 机 密 。 

“棱镜 ”计划 也 可 以 被 理解 为 应 用 大 数据 方法 进行 安全 分 析 的 成 功 故事 。 通 过 收集 各 
个 国家 各 种 类 型 的 数据 ,利用 安全 威胁 数据 和 安全 分 析 形 成 系统 方法 发 现 潜在 危险 局 势 ， 
在 攻击 发 生 之 前 识别 威胁 。 

相 比 于 传统 技术 方案 ,基于 大 数据 的 威胁 发 现 技术 具有 以 下 优点 。 

1. 分 析 内 容 的 范围 更 大 

传统 的 威胁 分 析 主 要 针对 的 内 容 为 各 类 安全 事件 。 而 一 个 企业 的 信息 资产 则 包括 数 
据 资产 ,软件 资产 ,实物 资产 ,人员 资 产 、 服 务 资产 和 其 他 为 业务 提供 支持 的 无 形 资产 。 由 
于 传统 威胁 检测 技术 的 局 限 性 ,其 并 不 能 覆盖 这 六 类 信息 资产 ,因此 所 能 发 现 的 威胁 也 是 
有 限 的 。 

而 通过 在 威胁 检测 方面 引入 大 数据 分 析 技 术 , 可 以 更 全 面 地 发 现 针 对 这 些 信 息 资产 
的 攻击 。 例 如 通过 分 析 企业 员工 的 即时 通信 数据 .E-mail 数据 等 可 以 及 时 发 现 人 员 资产 
是 否 面临 其 他 企业 * 控 墙 脚 ?的 攻击 威胁 。 再 比如 通过 对 企业 的 客户 部 订单 数据 的 分 析 ， 
也 能 够 发 现 一 些 异 常 的 操作 行为 ,进而 判断 是 否 危害 公司 利益 。 可 以 看 出 ,分 析 内 容 范 围 
的 扩大 使 得 基于 大 数据 的 威胁 检测 更 加 全 面 。 

2. 分 析 内 容 的 时 间 跨 度 更 长 

现 有 的 许多 威胁 分 析 技术 都 是 内 存 关联 性 的 ,也 就 是 说 ,实时 收集 数据 ,采用 分 析 技 
术 发 现 攻击 。 分 析 窗 口 通常 受 限于 内 存 大 小 ,无 法 应 对 持续 性 和 潜伏 性 攻击 。 而 引入 大 
数据 分 析 技 术 后 ,威胁 分 析 窗口 可 以 横 跨 若干 年 的 数据 ,因此 威胁 发 现 能 力 更 强 ,可 以 有 
效应 对 APT 类 攻击 。 

3. 攻击 威胁 的 预测 性 

传统 的 安全 防护 技术 或 工具 大 多 是 在 攻击 发 生 后 对 攻击 行为 进行 分 析 和 归 类 ,并 做 
出 响应 。 而 基于 大 数据 的 威胁 分 析 ,可 进行 超前 的 预 判 。 它 能 够 寻找 潜在 的 安全 威胁 ,对 
未 发 生 的 攻击 行为 进行 预防 。 

4. 对 未 知 威胁 的 检测 

传统 的 威胁 分 析 通 常 是 由 经 验 丰 富 的 专业 人 员 根 据 企 业 需求 和 实际 情况 展开 ,然而 
这 种 威胁 分 析 的 结果 在 很 大 程度 上 依赖 于 个 人 经 验 。 同 时 ,分 析 所 发 现 的 威胁 也 是 已 知 
的 。 而 大 数据 分 析 的 特点 是 侧重 于 普通 的 关联 分 析 ,而 不 侧重 因果 分 析 , 因 此 通过 采用 恰 
当 的 分 析 模 型 ,可 发 现 未 知 威胁 。 
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虽然 基于 大 数据 的 威胁 发 现 技术 具有 上 述 的 优点 ,但 是 该 技术 目前 也 存在 一 些 问题 
和 挑战 ,主要 集中 在 分 析 结 果 的 准确 程度 上 。 一 方面 ,大 数据 的 收集 很 难 做 到 全 面 ,而 数 
据 又 是 分 析 的 基础 , 它 的 片面 性 往往 会 导致 分 析出 的 结果 的 偏差 。 为 了 分 析 企业 信息 资 
产 面临 的 威胁 ,不 但 要 全 面 收集 企业 内 部 的 数据 ,还 要 对 一 些 企业 外 的 数据 进行 收集 ,这 
些 在 某 种 程度 上 是 一 个 大 问题 。 另 一 方面 ,大 数据 分 析 能 力 的 不 足 影响 威胁 分 析 的 准确 
性 。 例 如 ,纽约 投资 银行 每 秒 会 有 5000 次 网 络 事件 ,每 天 会 从 中 捕捉 25TB 数据 。 如 果 
没有 足够 的 分 析 能 力 , 要 从 如 此 庞大 的 数据 中 准确 地 发 现 极 少 数 预示 潜在 攻击 的 事件 , 进 
而 分 析出 威胁 是 几乎 不 可 能 完成 的 任务 。 


8.2.2 基于 大 数据 的 认证 技术 


身份 认证 是 信息 系统 或 网 络 中 确认 操作 者 身份 的 过 程 。 传 统 的 认证 技术 主要 通过 用 
户 所 知 的 秘密 (例如 口令 ) ,或 者 持 有 的 凭证 (例如 数字 证 书 ) ,来 鉴别 用 户 。 这 些 技术 面临 
着 如 下 两 个 问题 ; 

首先 ,攻击 者 总 是 能 够 找到 方法 来 骗取 用 户 所 知 的 秘密 ,或 窃取 用 户 持 有 的 凭证 ,从 
而 通过 认证 机 制 的 认证 。 例 如 攻击 者 利用 钓鱼 网 站 窃取 用 户口 令 , 或 者 通过 社会 工程 学 
方式 接近 用 户 ,直接 骗取 用 户 所 知 秘密 或 持 有 的 凭证 。 

其 次 ,传统 认证 技术 中 认证 方式 越 安 全 往往 意味 着 用 户 负担 越 重 。 例 如 ,为 了 加 强 认 
证 安全 ,而 采用 的 多 因素 认证 . 用 户 往 往 需 要 同时 记忆 复杂 的 口令 ,还 要 随身 携带 硬件 
USBKey。 一 旦 忘记 口令 或 者 忘记 携带 USBKey, 就 无 法 完成 身份 认证 。 为 了 减轻 用 户 
负担 ,一 些 生 物 认 证 方式 出 现 , 利 用 用 户 具 有 的 生物 特征 ,例如 指纹 等 ,来 确认 其 身份 。 然 
而 ,这 些 认 证 技术 要 求 设备 必须 具有 生物 特征 识别 功能 ,例如 指纹 识别 。 因 此 在 很 大 程度 
上 限制 了 这 些 认 证 技术 的 广泛 应 用 。 

而 在 认证 技术 中 引入 大 数据 分 析 则 能 够 有 效 地 解决 这 两 个 问题 。 基 于 大 数据 的 认证 
技术 指 的 是 收集 用 户 行为 和 设备 行为 数据 ,并 对 这 些 数据 进行 分 析 , 获 得 用 户 行为 和 设备 
行为 的 特征 ,进而 通过 鉴别 操作 者 行为 及 其 设备 行为 来 确定 其 身份 。 这 与 传统 认证 技术 
利用 用 户 所 知 秘密 、 所 持 有 凭证 或 具有 的 生物 特征 来 确认 其 身份 有 很 大 不 同 。 具 体 来 说 ， 
这 种 新 的 认证 技术 具有 如 下 优点 : 

(1) 攻击 者 很 难 模拟 用 户 行为 特征 来 通过 认证 ,因此 更 加 安全 。 利 用 大 数据 技术 所 
能 收集 的 用 户 行为 和 设备 行为 数据 是 多 样 的 ,可 以 包括 用 户 使 用 系统 的 时 间 ,经 常 采用 的 
设备 ,设备 所 处 物理 位 置 ,甚至 是 用 户 的 操作 习惯 数据 。 通 过 这 些 数据 的 分 析 能 够 为 用 户 
勾画 一 个 行为 特征 的 轮廓 。 而 攻击 者 很 难 在 方方面面 都 模 仿 出 用 户 的 行为 ,因此 其 与 真 
正 用 户 的 行为 特征 轮廓 必然 存在 一 个 较 大 偏差 ,无 法 通过 认证 。 

(2) 减 小 了 用 户 负担 .用 户 行为 和 设备 行为 特征 数据 的 采集 ,存储 和 分 析 都 由 认证 系 
统 完成 。 相 比 于 传统 认证 技术 , 极 大 地 减轻 了 用 户 负担 。 

(3) 可 以 更 好 地 支持 各 系统 认证 机 制 的 统一 ,基于 大 数据 的 认证 技术 可 以 让 用 户 在 
整个 网 络 空 间 采用 相同 的 行为 特征 进行 身份 认证 ,而 避免 不 同系 统 采用 不 同 认 证 方式 , 且 
用 户 所 知 秘密 或 所 持 有 凭证 也 各 不 相同 而 带 来 了 种 种 不 便 。 

虽然 基于 大 数据 的 认证 技术 具有 上 述 优点 ,但 同时 也 存在 一 些 问题 和 挑战 叹 待 解决 : 
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(1) 初始 阶段 的 认证 问题 。 

基于 大 数据 的 认证 技术 是 建立 在 大 量 用 户 行为 和 设备 行为 数据 分 析 的 基础 上 ,而 初 
始 阶 段 不 具备 大 量 数据 。 因 此 ,无 法 分 析出 用 户 行为 特征 ,或 者 分 析 的 结果 不 够 准确 。 

(2) 用 户 隐私 问题 。 

基于 大 数据 的 认证 技术 为 了 能 够 获得 用 户 的 行为 习惯 ,必然 要 长 期 持续 地 收集 大 量 
的 用 户 数 据 。 那 么 如 何在 收集 和 分 析 这 些 数据 的 同时 ,确保 用 户 隐私 也 是 吸 待 解决 的 问 
题 。 它 是 影响 这 种 新 的 认证 技术 是 否 能 够 推广 的 主要 因素 。 


8.2.3 基于 大 数据 的 数据 真实 性 分 析 


目前 ,基于 大 数据 的 数据 真实 性 分 析 被 广泛 认为 是 最 为 有 效 的 方法 。 许 多 企业 已 经 
开始 了 这 方面 的 研究 工作 ,例如 Yahoo 和 Thinkmail 等 利用 大 数据 分 析 技 术 来 过 滤 垃圾 
邮件 ;Yelp 等 社交 点 评 网 络 用 大 数据 分 析 来 识别 虚假 评论 ;新 浪 微 博 等 社交 媒体 利用 大 
数据 分 析 来 鉴别 各 类 垃圾 信息 等 。 

基于 大 数据 的 数据 真实 性 分 析 技术 能 够 提高 垃圾 信息 的 鉴别 能 力 。 一 方面 ,引入 大 
数据 分 析 可 以 获得 更 高 的 识别 准确 率 。 例 如 ,对 于 点 评 网 站 的 虚假 评论 ,可 以 通过 收集 评 
论 者 的 大 量 位 置信 息 .评论 内 容 、 评 论 时 间 等 进行 分 析 , 鉴 别 其 评论 的 可 靠 性 。 如 果 某 评 
论 者 为 某 品 牌 多 个 同类 产品 都 发 表 了 恶意 评论 ,其 评论 的 真实 性 就 值得 怀疑 。 另 一 方面 ， 
在 进行 大 数据 分 析 时 ,通过 机 器 学 习 技术 ,可 以 发 现 更 多 具有 新 特征 的 垃圾 信息 。 然 而 该 
技术 仍然 面临 一 些 困难 ,主要 是 虚假 信息 的 定义 ,分 析 模 型 的 构建 等 。 


8.2.4 大 数据 与 “安全 即 服 务 ” 


前 面 列 举 了 部 分 当前 基于 大 数据 的 信息 安全 技术 ,未 来 必 将 涌现 出 更 多 、 更 丰富 的 安 
全 应 用 和 安全 服务 。 由 于 此 类 技术 以 大 数据 分 析 为 基础 ,因此 如 何 收集 ,存储 和 管理 大 数 
据 就 是 相关 企业 或 组 织 所 面临 的 核心 问题 。 除 了 极 少数 企业 有 能 力 做 到 之 外 ,对 于 绝 大 
多 数 信息 安全 企业 来 说 ,更 为 现实 的 方式 是 通过 某 种 方式 获得 大 数据 服务 ,结合 自己 的 技 
术 特色 领域 ,对 外 提供 安全 服务 。 一 种 未 来 的 发 展 前 景 是 : 以 底层 大 数据 服务 为 基础 ,各 
个 企业 之 间 组 成 相互 依赖 .相互 支撑 的 信息 安全 服务 体系 ,从 总 体 上 形成 信息 安全 产业 界 
的 良好 生态 环境 。 


8.3 大 数据 安全 的 防护 策略 


1. 确保 身份 安全 


要 进行 大 数据 分 析 ,需要 把 大 型 数据 集 划 分 成 更 易于 管理 的 单个 部 分 ,然后 分 别 通过 
Hadoop 集群 处 理 , 最 后 将 它们 重新 组 合 以 产生 所 需 分 析 。 该 过 程 高 度 自动 化 ,涉及 大 量 
跨 集群 的 机 器 对 机 器 (M2M) 交 互 。 

在 Hadoop 的 基础 设施 会 发 生 几 个 层次 的 授权 ,具体 包括 : 

(1) 访问 Hadoop 集群 。 

(2) 簇 间 通信 。 
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(3) 集群 访问 数据 源 。 

这 些 授权 往往 是 基于 SSH(Secure Shell) 密 钥 的 ,其 对 于 使 用 Hadoop 是 理想 的 , 因 
其 安全 级 别 支持 自动 化 的 M2M 通信 。 

许多 基于 流行 的 基于 云 计 算 的 Hadoop 服务 也 使 用 SSH 作为 访问 Hadoop 集群 的 
认证 方法 。 确 保 了 授予 访问 大 数据 环境 中 的 身份 应 该 是 一 个 高 优先 级 的 ,但 其 也 具有 挑 
战 性 。 这 对 于 那些 想 要 像 使 用 Hadoop 一 样 使 用 大 数据 分 析 的 公司 来 说 是 一 个 很 大 的 挑 
战 。 有 些 问 题 直截了当 : 

。 谁 来 建立 运行 大 数据 分 析 的 授权 ? 

。 一 旦 建立 授权 的 人 离职 ,会 出 现 什么 问题 ? 

。 授权 提供 的 访问 级 别 是 否 基于 “须知 "安全 准则 ? 

。 谁 可 以 访问 授权 ? 

。 如 何 管理 这 些 授 权 ? 

大 数据 并 不 是 需要 考虑 这 些 问 题 的 唯一 技术 。 当 越 来 越 多 的 业务 流程 自动 化 ,这 些 
问题 将 遍布 数据 中 心 。 自 动 化 的 M2M 交易 占 到 了 数据 中 心 所 有 通信 的 80% ,然而 大 部 
分 管理 员 则 把 焦点 集中 在 与 员工 账户 相关 联 的 20% 的 通信 流量 。 


2. 风险 


众所周知 的 数据 泄露 包括 滥用 以 机 器 为 主 的 证 书 ,这 体现 了 忽视 M2M 身份 验证 的 
现实 风险 。 当 企业 在 管理 终端 用 户 身 份 上 取得 很 大 进步 时 , 却 忽视 了 应 以 同样 标准 处 理 
机 器 为 主 的 身份 验证 的 需求 。 其 结果 就 是 使 整个 IT 环境 遍布 风险 。 

然而 ,对 于 想 要 将 集中 的 身份 和 存 取 管理 ( 尽 可 能 的 ) 应 用 到 数 百 万 基于 机 器 的 身份 
来 说 ,改变 运行 中 的 系统 是 一 个 很 大 的 挑战 。 不 中 断 系统 迁移 环境 是 一 项 复杂 的 工作 ,所 
以 企业 一 直 在 犹豫 也 不 足 为 奇 。 

3. 密 钥 管理 的 不 良 状况 


密 钥 管理 的 现状 一 直 很 糟糕 。 为 了 管理 用 于 保护 M2M 通信 的 认证 密 钥 , 许 多 系统 
管理 员 使 用 电子 表格 或 自 编 脚 本 来 控制 分 配 ,监控 和 清点 密 钥 。 这 种 做 法 漏 掉 了 许多 密 
钥 。 估 计 他 们 也 没有 设置 常规 扫描 ,于 是 未 被 授权 的 非法 途径 便 在 不 知 不 觉 中 添加 进来 。 

缺少 对 密 钥 的 集中 控制 严重 影响 法 规 遵从 。 以 金融 行业 为 例 ,规定 要 求 必须 严格 控 
制 谁 可 以 访问 敏感 数据 ,比如 最 近 强化 了 的 PCI 标准 要 求 任何 接受 支付 卡 的 地 方 一 一 银 
行 、 零 售 商 ,餐馆 和 医院 等 一 一 均 需 依照 同样 标准 执行 ,无 一 例外 。 由 于 这 些 行业 目前 正 
在 迅速 果断 地 执行 大 数据 战略 ,来 分 得 用 户 驱 动 数据 大 潮 的 一 杯 姜 ,他们 越 来 越 容易 违背 
法 规 并 面临 监管 制裁 。 

4. 安全 步 又 

组 织 机 构 必 须 承认 并 应 对 这 些 风 险 。 这 些 步骤 是 行动 开始 的 最 佳 做 法 : 

。 很 少 有 IT 人 员 知 道 身份 的 存储 位 置 .访问 权限 以 及 其 支持 的 业务 流程 。 因 此 ,第 

一 步 是 被 动 非 侵 入 的 发 现 。 
， 环 境 监测 是 必需 的 ,这 样 才能 确定 哪些 身份 是 活跃 的 ,哪些 不 是 。 幸 运 的 是 ,在 许 
多 企业 中 ,未 使 用 的 一 一 因此 也 是 不 需要 的 一 一 身份 往往 占 绝 大 多 数 。 一 旦 这 些 
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未 使 用 的 身份 被 定位 并 移 除 , 整 体 工作 量 便 会 大 大 降低 。 

， 下 一 步 是 集中 控制 添加 、 更 改 和 删除 机 器 身份 。 这 样 一 来 ,政策 便 可 以 控制 身份 
如 何 使 用 ,确保 没有 非 托管 的 身份 添加 ,并 提供 法 规 遵从 的 有 效 证 明 。 

。 随 着 可 见 性 和 管理 控制 的 确定 ,必要 但 在 违反 政策 的 身份 可 以 在 不 中 断 业 务 流程 
的 情况 下 进行 校正 。 集 中 管理 可 对 该 身份 的 权限 级 别 进行 修正 。 


5. 安全 策略 


大 数据 的 兴起 伴随 着 数据 存 取 控 制 的 新 型 风险 。M2M 身份 管理 必 不 可 少 ,但 是 传 
统 的 人 工 IAM 做 法 效率 低 且 风险 高 。 盘 点 所 有 密 钥 ,使 用 最 优 方法 可 以 节省 时 间 和 金 
钱 ,同时 提高 安全 性 和 法 规 遵从 。 由 于 大 数据 增加 了 访问 敏感 信息 的 认证 门槛 ,组 织 机 构 
必须 采取 积极 措施 ,推出 全 面 一 致 的 身份 和 存 取 管理 策略 。 


8.4 大 数据 应 用 案例 之 : 电影 (爸爸 去 哪儿 》 大 卖 有 前 兆 么 


1 月 25 日 (爸爸 去 哪儿 ) 北 京 首 映 发 布 会 , 首 映 广告 如 图 8. 1 所 示 。 有 媒体 问 郭 涛 : 
电影 拍摄 期 只 有 5 天 ,你 怎么 让 观众 相信 ,这 是 一 部 有 品质 的 电影 ? 


gd = 





图 8.1 《爸爸 去 哪儿 》 


1 月 27 日 , 某 娱乐 频道 挂 出 头条 策划 一 一 只 拍 了 5 天 的 (爸爸 去 哪儿 》, 值 得 走 进 电 
影院 么 ? 

光线 传媒 总 裁 王 长 田 在 1 月 7 日 的 发 布 会 上 解释 : 一 般 的 电影 只 有 2 或 3 台 摄 影 
机 ,而 (爸爸 去 哪儿 ) 用 了 30 多 台 摄影 机 ,所 以 这 5 天 的 拍摄 时 间 , 却 有 10 倍 的 素材 量 ,在 
剪辑 量 上 ,甚至 比 一 般 电影 还 大 。 

关于 这 个 话题 的 讨论 ,看 上 去 好 像 很 多 很 多 ,但 ,观众 真 的 很 在 乎 这 件 事情 么 ? 《爸爸 
去 哪儿 ) 大 卖 ,到 底 是 让 大 家 大 跌眼镜 的 偶然 事件 ,还 是 早 有 前 兆 ? 

1. 5 天 拍 完 ,观众 真 的 在 乎 么 

《爸爸 去 哪儿 ) 是 一 部 真人 秀 电影 ,制作 流程 在 中 国电 影 史 上 也 没有 可 参照 对 象 , 但 我 
们 依然 担心 会 有 很 多 人 贴标签 一 一 5 天 拍 完 ,粗制滥造 ! 

本 着 危机 公关 心态 出 发 ,伯乐 营销 委托 微 瑞 科 技 做 了 一 次 大 数据 挖掘 , 想 看 看 到 底 有 
多 少 人 在 质疑 (爸爸 去 哪儿 ) 圈 钱 的 事情 ,以 及 在 提 到 这 件 事情 时 ,截止 到 1 月 11 日 ,在 新 
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浪 微 博 仅 有 536 人 在 讨论 此 话题 ( 含 转发 人 数 ) ,而 其 中 还 有 近 一 半 的 人 数 表示 出 圈 钱 也 
要 看 . 圈 钱 也 无 所 谓 的 态度 。 比 起 动 辑 对 影片 内 容 数 十 万 的 讨论 和 追捧 ,这 个 话题 讨论 量 
简直 是 沧海 一 票 。 

反 过 来 想 一 想 ,一 部 电影 拍 5 年 ,就 值得 进 电影 院 了 么 ? 在 商业 电影 环境 里 ,让 观众 
买单 的 是 结果 ,而 不 是 努力 的 过 程 。 

网 友 对 * 圈 钱 ? 的 看 法 如 图 8. 2 所 示 。 


范围 : 新 浪 党 全 
=》 EMA ©® 
扶 填 536 太 =》 中 性 166 人 四 
=》 员 四 280 人 四 


图 8.2 网 友 对 “ 圈 钱 ”的 看 法 


2. 原 班 人 马 出 演 ,很 重要 么 

由 热门 电视 剧 改 编 成 的 电影 的 项 目 有 很 多 ,这 里 面 有 票房 大 卖 的 ,比如 (武林 外 传 》 
《将 爱 》, 也 有 票房 惨淡 的 ,比如 《奋斗 兴 宫 兴 金 太 狼 的 幸福 生活 》, 用 比较 粗暴 的 方式 分 类 ， 
前 者 基本 是 原 班 人 马 出 演 ,而 后 者 的 主演 都 变 了 ,虽然 单单 看 这 几 个 项 目 ,就 推出 “热门 电 
视 剧 改编 电影 十 原 班 人 马 = 票 房 大 卖 ” 未 兔 太 粗暴 ,但 不 得 不 说 , 原 班 人 马 对 于 项 目 成 功 
一 定 是 加 分 因素 。 而 通过 大 数据 调查 发 现 ,对 于 《爸爸 去 哪儿 》 大 电影 这 个 项 目 来 说 ,更 是 
至 关 重要 。 

当 ( 和 爸爸 去 哪儿 ) 大 电影 项 目 刚 刚 曝 光 , 还 没有 公布 主演 的 短 短 两 三 天 时 间 , 在 新 浪 微 
博 上 参与 “ 原 班 人 马 ” 的 讨论 量 便 已 经 过 超过 2 万 ,43. 38% 的 网 友 表示 ,如 果 是 原 班 人 马 
就 会 看 ;47.06% 的 人 表示 ,希望 是 原 班 人 马 出 演 ;9. 56% 的 网 友 表 示 , 不 是 原 班 人 马 不 看 。 
无 论 是 从 声 量 的 绝对 值 上 ,还 是 从 期 待人 数 的 比例 上 ,都 能 够 证 明 五 对 星 爸 萌 娃 合体 的 
价值 。 

原 班 人 马 出 演 很 重要 的 分 析 统计 如 图 8. 3 所 示 。 

与 此 同时 ,我 们 也 调研 了 《武林 外 传 兴 将 爱 兴 宫 欠 奋斗 ) 四 部 电影 在 新 浪 微 博 上 对 于 
“ 原 班 人 马 ” 的 讨论 ,虽然 样本 比 ( 爸 爸 去 哪儿 ) 大 电影 小 得 多 ,但 从 分 布 比例 上 ,能 明显 看 
出 《奋斗 ) 和 《 宫 锁 沉香 ) 没 有 使 用 原 班 人 马 , 有 失 人 心 。 

失败 案例 如 图 8.4 所 示 。 

3. 谁 才 是 真正 的 “合家 欢 ” 

今年 春节 档 公映 的 电影 ,几乎 每 一 部 电影 在 宣传 时 ,都 要 给 自己 贴 上 “合家 欢 ” 电 影 的 
标签 , “合家欢 ” 真 的 那么 重要 么 ? 

每 年 的 春节 档 都 是 电影 院 的 业务 爆发 期 ,而 在 这 其 中 最 受 电 影院 欢迎 的 电影 就 是 合 
家 欢 类 型 的 电影 ,不 难 理解 ,适合 全 家 一 起 看 的 ,能 够 带动 更 多 消费 ,这 样 类 型 的 电影 必然 
受 电影 院 的 欢迎 。 以 春节 档 的 (大 闹 天 宫 兴 爸爸 去 哪儿 兴 澳 门 风云 》 作 为 调研 对 象 ,在 新 
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票房 5400 万 票房 545 万 


数据 剖 道 ， 新 汽 | 
截止 日 期 : 2014 年 1 月 11 日 





图 8.4 失败 案例 


浪 微 博 上 抽取 以 电影 名 和 全 家 为 关键 词 为 讨论 的 条 目 , 相 较 于 《澳门 风云 兴 和 爸爸 去 哪儿 》 
和 《大 闹 天 宫 ? 有 着 绝对 的 优势 。 
4. 预告 片 播 放量 ,你 有 注意 么 

数据 公司 随机 抽取 了 四 部 在 大 年 初 一 公映 的 四 部 电影 在 12 月 以 来 发 布 的 一 款 预 告 
片 和 一 款 制 作 特 辑 , 以 腾讯 .搜狐 、 新 浪 、 优 酷 \ 土 豆 五 家 主流 视频 网 站 的 播放 量 为 调研 对 
象 , 可 以 明显 看 出 (爸爸 去 哪儿 》 和 《大 闹 天 宫 ) 都 是 百 万 量 级 播放 量 ,在 四 部 电影 里 占 尽 优 
势 。( 因 为 (大病 天 宫 》 项 目 启 动 较 早 ,考虑 到 预告 片 在 各 个 平台 上 的 长 尾 效应 ,并 没有 选 
择 (大 闹 天 富 ) 一 首 款 预 告 ,而 是 选择 了 与 其 他 电影 在 密集 宣传 期 时 相近 时 间 主 推 的 预 
告 片 。) 

预告 片 播放 量 的 统计 分 析 如 图 8. 5 所 示 。 

5. 春节 档 ,到 底 最 想 看 什么 

其 实 论 来 论 去 , 片 方 最 紧张 的 还 是 “ 想 看 一 部 电影 的 人 数 ,毕竟 “ 想 看 ”这 个 词 ,直接 
和 票房 挂 钧 ,但 这 个 问题 最 复杂 ,因为 提供 这 个 数据 的 维度 非常 多 ,有 新 浪 微 博 上 网 友 直 
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数据 轨道 : 疡 浪 党 情 、 坑 锦 ， 久 讯 、 优 霹 、 土 豆 
截止 日 期 : 2014 年 1 月 1 日 


图 8.5 预告 片 播放 量 


接 发 出 的 声音 ,有 业内 营销 人 士 非常 关心 的 百度 指数 ,也 有 像 QQ 电影 票 这 样 和 用 户 购买 
行为 直接 相关 的 APP, 所 以 在 这 个 问题 上 ,我 们 特地 选择 了 几 个 不 同 的 平台 取样 。 

1) 新 浪 微 博 

从 图 8.6 来 看 ,在 大 年 初 一 即将 上 映 的 四 部 电影 中 , 提 及 “ 想 看 ”和 “期 待 《 前 任 攻 
略 》 的 频率 最 高 人 爸爸 去 哪儿 》 电 影 次 之 ,这 个 结果 可 能 和 大 家 对 未 来 各 个 电影 在 票房 
上 的 期 待 不 符 , 但 它 的 确 反 映 了 在 微 博 这 个 阵地 上 各 个 电影 因为 粉丝 而 带 来 的 话题 讨 
论 量 。 
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堆 止 到 2014 年 1 月 11 日 


图 8.6 新 浪 微 博 数据 图 





2) 百度 指数 

百度 指数 是 电影 从 业 人 员 比 较 看 中 的 一 个 数据 ,之 前 还 有 人 以 此 建 模 , 预 测 电影 最 终 
票房 ,这 个 数据 代表 每 天 有 多 少 人 以 片 名 为 关键 词 进行 搜索 ,在 某 种 程度 上 , 它 的 确 可 以 
反映 出 一 部 电影 在 网 民心 中 的 热度 。 因 此 ,数据 公司 选取 了 四 部 在 大 年 初 一 上 映 的 电影 
的 百度 指数 在 1 月 26 日 之 前 映 前 30 天 的 平均 值 作为 参考 。 

需要 说 明 的 是 一 一 由 于 《爸爸 去 哪儿 ) 这 部 电影 有 综艺 节目 的 干扰 ,关键 词 选择 了 “从 
和 爸 去 哪儿 电影 ,虽然 这 样 会 漏 掉 大 量 搜索 数据 (如 此 期 间 搜索 “和 爸爸 去 哪儿 大 电影 ”的 平 
均 指数 ,也 达到 了 4200, 但 都 没有 统计 在 内 ) ,但 即便 如 此 ,《 和 爸爸 去 哪儿 ) 的 平均 指数 仍 在 
4 部 电影 里 排名 第 2。 

百度 指数 数据 分 析 如 图 8.7 所 示 。 
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8.7 百度 指数 数据 图 


3) 猫眼 电影 .QQ 电影 票 

美 团 猫眼 电影 和 QQ 电影 票 是 当下 两 款 非常 流行 的 购 票 服 务 软件 ,提供 影 票 查询 信 
息 、 团 购 影 票 , 以 及 在 线 座位 提早 预订 等 功能 ,其 APP 软件 已 经 成 为 学 生 和 白领 一 族 购买 
电影 票 的 重要 渠道 ,而 在 这 个 渠道 上 所 体现 出 的 * 想 看 "和 最 后 的 消费 购买 距离 最 近 , 从 这 
两 个 数据 上 来 看 (大 闹 天 宫 》 和 《爸爸 去 哪儿 ?电影 的 优势 最 为 明显 。 

值得 注意 的 是 ,爸爸 去 哪儿 》 电 影 项 目 公布 的 时 间 是 这 4 个 项 目 里 最 晚 的 一 部 ,在 
12 月 初时 , 当 其 他 几 部 电影 已 经 有 了 一 个 不 错 的 基数 时 ,人 《爸爸 去 哪儿 》 还 是 0, 但 就 在 这 
1 个 多 月 里 ,“ 想 看 ”的 数字 形成 了 一 个 爆发 式 的 增长 。 不 过 这 两 个 平台 都 不 提供 体现 变 
化 的 数据 ,所 以 大 家 看 不 到 这 部 电影 在 “ 想 看 "这 个 数据 上 突飞猛进 的 变化 。 

使 用 购 票 服务 软件 分 析 结 果 如 图 8. 8 所 示 。 


春节 档 电影 观众 “起 看 ”人 数 
截止 到 2014 年 1 月 26 日 











AS 


8.8 ”猫眼 电影 .QQ 电影 票数 据 图 





6. 微 博 营销 , 谁 的 影响 力 最 大 

每 着 片 方 发 布 新 的 预告 片 海报 、 特 辑 等 重要 物料 ,都 会 与 演员 沟通 能 在 其 微 博 上 配 
合 发 布 ,作为 一 个 动 辑 上 百 万 ,甚至 上 千 万 粉丝 的 明星 , 微 博 的 确 是 一 个 非常 有 效 的 话题 
和 内 容 的 输出 渠道 ,其 效果 在 (小 时 代 》 和 《 致 青春 ) 这 两 部 电影 上 更 是 有 着 现象 级 的 释放 。 
针对 微 博 营销 ,数据 公司 选取 了 12 月 26 日 ~1 月 26 日 这 个 时 间 段 里 ,四 部 电影 的 主演 
在 微 博 上 配合 发 布 电影 物料 的 总 条 数 ,以 及 由 此 带 来 的 转发 量 、 评 论 量 。 
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在 转发 量 ,评论 量 上 ,爸爸 去 哪儿 ?代表 队 都 以 绝对 的 优势 成 为 最 大 赢家 ,其 中 林 志 
颖 共计 发 布 12 条 微 博 ,转发 量 20. 2 万 ,评论 量 17. 8 万 , 毫 无 悬念 地 成 为 称霸 微 博 人 气 
王 ,而 田亮 发 布 的 13 条 微 博 , 带 来 了 10. 1 万 转发 .6.8 万 的 评论 量 ,影响 力也 不 容 小 凯 ， 
《大 六 天宫》 代表 队 的 主力 选手 是 主演 甄子丹 ,期 间 共 发 布 58 条 微 博 ,可 以 说 是 名 副 其 实 
的 互动 王 ,《 前 任 攻略 ) 代 表 队 中 影响 力 最 大 的 是 韩庚 ,( 澳 门 风云 ) 在 微 博 平台 上 相对 比较 
吃亏 ,因为 电影 里 的 两 位 重要 级 演员 周润发 .谢霆锋 都 没有 开通 新 浪 微 博 , 期 间 大 部 分 与 
网 友 的 互动 ,都 是 由 导演 王 晶 完 成 。 

除了 演员 带 来 的 巨大 影响 力 之 外 ,爸爸 去 哪儿 》 综 艺 节目 而 建立 起 来 的 官方 微 博 , 也 
成 为 (爸爸 去 哪儿 ) 电 影 版 后 期 的 宣传 平台 ,400 余 万 的 粉丝 数量 ,也 是 其 他 两 三 万 粉丝 数 
的 电影 官 微 所 不 能 比 的 ,所 以 在 物料 和 新 媒体 话题 的 传播 上 ,爸爸 去 哪儿 》 占 尽 了 优势 。 

微 博 营销 影响 力 数 据 分 析 如 图 8. 9 所 示 。 
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图 8.9 微 博 营销 影响 力 数据 图 


作为 中 国 首部 真人 秀 电影 (爸爸 去 哪儿 》 有 它 的 独创 性 ,也 有 它 的 不 可 复制 性 ,也 许 
它 不 是 好 的 艺术 范本 ,但 它 一 定 是 一 个 好 的 商业 范本 ,如 果 你 还 在 拿 它 与 (中 国 好 声音 
为 你 转身 》 相 比 , 那 真是 把 这 个 项 目 想 得 太 简单 了 。 在 时 间 点 的 衔接 .电影 的 内 容 、 档 期 的 
安排 台 网 宣传 互动 ,联合 营销 推广 方面 ,虽然 项 目 启动 最 晚 ,但 (爸爸 去 哪儿 )》 在 上 述 各 个 
方面 ,都 有 着 精心 的 安排 和 规划 ,而 其 之 前 在 社交 媒体 上 强劲 的 数据 表现 也 证 明 , 人 (爸爸 去 
哪儿 ) 能 大 卖 , 真 的 没什么 可 意外 的 。 


习题 与 思考 是 
一 、 选 择 题 
1. 以 下 哪些 管理 规定 对 信息 安全 及 个 人 隐私 进行 了 保护 ? ( 。 ) 
A.《 互 联网 行业 的 自律 公约 》 B.《 治 安 管理 处 罚 条 例 》 
C.《 关 于 加 强 网 络 信息 保护 的 决定 》 D.《 信 息 安全 保护 条 例 》 


2. 在 大 数据 时 代 ,我 们 需要 设立 一 个 不 一 样 的 隐私 保护 模式 ,这 个 模式 应 该 更 着 重 
于 ( ， ) 为 其 行为 承担 责任 。 
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A. 数据 使 用 者 B. 数据 提供 者 

C. 个 人 许可 D. 数据 分 析 者 
3. 云 安全 主要 的 考虑 的 关键 技术 有 哪些 ? (  ) 

A. 数据 安全 B. 应 用 安全 

C. 虚拟 化 安全 D. 服务 器 安全 


4. 下 列 关 于 网 络 用 户 行为 的 说 法 中 ,错误 的 是 (。”)。 
A. 网 络 公司 能 够 捕捉 到 用 户 在 其 网 站 上 的 所 有 行为 
B. 用 户 离散 的 交互 痕迹 能 够 为 企业 提升 服务 质量 提供 参考 
C. 数字 轨迹 用 完 即 自动 删除 
D. 用 户 的 隐私 安全 很 难得 以 规范 保护 
5. 下 列 论据 中 ,能 够 支撑 “大 数据 无 所 不 能 ”的 观点 的 是 ( )。 
A. 互联 网 金融 打破 了 传统 的 观念 和 行为 
B. 大 数据 存在 泡沫 
C. 大 数据 具有 非常 高 的 成 本 
D. 个 人 隐私 泄露 与 信息 安全 担忧 
6. 促进 隐私 保护 的 一 种 创新 途径 是 (  ): 故意 将 数据 模糊 处 理 , 促 使 对 大 数据 库 
的 查询 不 能 显示 精确 的 结果 。 
A. 匿名 化 B. 信息 模糊 化 
C. 个 人 隐私 保护 D. 差别 隐私 
“、 问 答题 
. 大 数据 面临 哪些 方面 的 安全 问题 ? 
. 简 述 基于 大 数据 的 威胁 发 现 技术 。 
. 有 哪些 种 基于 大 数据 的 认证 技术 ? 
. 简 述 大 数据 安全 的 防护 策略 。 
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9.1 银行 业 应 用 


9.1.1 大 数据 时 代 : 银行 如 何 玩 转 数据 挖掘 


银行 信息 化 的 迅速 发 展 ,产生 了 大 量 的 业务 数据 。 从 海量 数据 中 提取 出 有 价值 的 信 
息 ,为 银行 的 商业 决策 服务 ,是 数据 挖掘 的 重要 应 用 领域 。 汇 丰 、 花 旗 和 瑞士 银行 是 数据 
挖掘 技术 应 用 的 先行 者 。 如 今 ,数据 挖掘 已 在 银行 业 有 了 广泛 深入 的 应 用 。 

现 阶段 ,数据 挖掘 在 银行 业 中 的 应 用 ,主要 可 分 为 以 下 几 个 方面 。 

1. 风险 控制 

数据 挖掘 在 银行 业 的 重要 应 用 之 一 是 风险 管理 ,如 信用 风险 评估 。 可 通过 构建 信用 
评级 模型 ,评估 贷款 人 或 信用 卡 申 请 人 的 风险 。 一 个 进行 信用 风险 评估 的 解决 方案 ,能 对 
银行 数据 库 中 所 有 的 账户 指定 信用 评级 标准 ,用 若干 数据 库 查询 就 可 以 得 出 信用 风险 的 
列表 。 这 种 对 于 高 / 低 风 险 的 评级 或 分 类 ,是 基于 每 个 客户 的 账户 特征 ,如 尚未 偿还 的 贷 
款 、 信 用 调 降 报告 记录 ,账户 类 型 .收入 水 平 及 其 他 信息 等 。 

对 于 银行 账户 的 信用 评估 ,可 采用 直观 量化 的 评分 技术 。 将 顾客 的 海量 信息 数据 以 
某 种 权重 加 以 衡量 ,针对 各 种 目标 给 出 量化 的 评分 。 以 信用 评分 为 例 , 通 过 由 数据 挖掘 模 
型 确定 的 权重 ,来 给 每 项 申请 的 各 项 指标 打分 ,加 总 得 到 该 申请 人 的 信用 评分 情况 。 银 行 
根据 信用 评分 来 决定 是 否 接受 申请 ,确定 信用 额度 。 过 去 ,信用 评分 的 工作 由 银行 信贷 员 
完成 ,只 考虑 几 个 经 过 测试 的 变量 ,如 就 业 情 况 .收入 ,年龄 .资产 .负债 等 。 现 在 应 用 数据 
挖掘 的 方法 ,可 以 增加 更 多 的 变量 ,提高 模型 的 精度 ,满足 信用 评价 的 需求 。 

通过 数据 挖掘 ,还 可 以 异常 的 信用 卡 使 用 情况 ,确定 极端 客户 的 消费 行为 。 根 据 历史 
数据 ,评定 造成 信贷 风险 客户 的 特征 和 背景 ,可 能 造成 风险 损失 的 客户 。 在 对 客户 的 资信 
和 经 营 预测 的 基础 上 ,运用 系统 的 方法 对 信贷 风险 的 类 型 和 原因 进行 识别 、 估 测 , 发 现 引 
起 贷款 风险 的 诱导 因素 ,有 效 地 控制 和 降低 信贷 风险 的 发 生 。 通 过 建立 信用 欺诈 模型 , 帮 
助 银行 发 现 具 有 潜在 欺诈 性 的 事件 ,开展 欺诈 侦查 分 析 , 预 防 和 控制 资金 非法 流失 。 


2. 客户 管理 
在 银行 客户 管理 生命 周期 的 各 个 阶段 ,都 会 用 到 数据 挖掘 技术 。 
1) 获取 客户 


发 现 和 开拓 新 客户 对 任何 一 家 银行 来 说 都 至 关 重 要 。 通 过 探索 性 的 数据 挖掘 方法 ， 
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如 自动 探测 到 类 和 购物 链 分 析 ,可 以 用 来 找 出 客户 数据 库 中 的 特征 ,预测 对 于 银行 活动 的 
响应 率 。 那 些 被 定 为 有 利 的 特征 可 以 与 新 的 非 客 户 群 进行 匹配 ,以 增加 党 销 活动 的 效果 。 

数据 控 据 还 可 从 银行 数据 库存 储 的 客户 信息 中 ,可 以 根据 事先 设 定 的 标准 找到 符合 
条 件 的 客户 群 ,也 可 以 把 客户 进行 聚 类 分 析 让 其 自然 分 群 ,通过 对 客户 的 服务 收入 .风险 
等 相关 因素 的 分 析 , 预 测 和 优化 ,找到 新 的 可 赢利 目标 客户 。 

2) 保留 客户 

通过 数据 挖掘, 在 发 现 流失 客户 的 特征 后 ,银行 可 以 在 具有 相似 特征 的 客户 未 流失 之 
前 ,采取 额外 增值 服务 ,特殊 待遇 和 激励 忠诚 度 等 措施 保留 客户 。 比 如 ,使 用 信用 卡 损耗 
模型 ,可 以 预测 哪些 客户 将 停止 使 用 银行 的 信用 卡 , 而 转 用 竞争 对 手 的 卡 ,根据 数据 挖 所 
结果 ,银行 可 以 采取 措施 来 保持 这 些 客户 的 信任 。 当 得 出 可 能 流失 的 客户 名 单 后 ,可 对 客 
户 进行 关怀 访问 ,争取 留 住 客户 。 

为 留 住 老 客户 ,防止 客户 流失 ,就 必须 了 解 客户 的 需求 。 数据 控 气 ,可 以 识别 导致 客 
户 转移 的 关联 因子 ,用 模式 找 出 当前 客户 中 相似 的 可 能 转移 者 ,通过 孤立 点 分 析 法 可 以 发 
现 客户 的 异常 行为 ,从 而 使 银行 避免 不 必要 的 客户 流失 。 数 据 控 据 工具 ,还 可 以 对 大 量 的 
客户 资料 进行 分 析 , 建 立 数据 模型 ,确定 客户 的 交易 习 怪 , 交 易 额 度 和 交易 频率 ,分 析 客户 
对 菜 个 产品 的 忠诚 程度 ,持久 性 等 ,从 而 为 他 们 提供 个 性 化 定制 服务 ,以 提高 客户 忠诚 度 。 

3) 优化 客户 服务 

银行 业 竞 争 日 益 激烈 ,客户 服务 的 质量 是 关系 到 银行 发 展 的 重要 因素 。 客 户 是 一 个 
可 能 根据 年 费 、 服 务 优惠 条 件 等 因素 而 不 断 流动 的 团体 ,为 客户 提供 优质 和 个 性 化 的 服 
务 ,是 取得 客户 信任 的 重要 手段 。 根 据 二 八 原 则 ,银行 业 20% 的 客户 创造 了 80% 的 价值 ， 
要 对 这 20% 的 客户 实施 最 优质 的 服务 ,前 提 是 发 现 这 20% 的 重点 客户 。 重 点 客户 的 发 现 
通常 是 由 一 系列 的 数据 控 据 来 实现 的 。 如 通过 分 析 客 户 对 产品 的 应 用 频率 ,持续 性 等 指 
标 来 判别 客户 的 忠诚 度 ,通过 交易 数据 的 详细 分 析 来 鉴别 哪些 是 银行 希望 保留 的 客户 。 
找到 重点 客户 后 ,银行 就 能 为 客户 提供 有 针对 性 的 服务 。 

3. 数据 挖 气 在 银行 业 的 具体 应 用 

数据 控 据 技术 在 银行 业 中 的 应 用 ,其 中 一 个 重要 前 提 条 件 是 ,必须 建立 一 个 统一 的 中 
天 客 户 数据 库 , 以 提高 客户 信息 的 分 析 能 力 。 分 析 开始 时 ,从 数据 库 中 收集 与 客户 有 关 的 
所 有 信息 、 交 易 记录 ,进行 建 模 , 对 数据 进行 分 析 , 对 客户 将 来 的 行为 进行 预测 。 具 体 应 用 
分 为 五 个 阶段 ， 

(0) 加 载 客户 账号 信息 。 这 一 阶段 ,主要 是 进行 数据 清理 ,消除 现 有 业务 系统 中 有 关 
客户 账户 数据 不 一致 的 现象 ,将 其 整合 到 中 央 客 户 信息 库 。 银 行 各 业务 部 门 对 客户 有 统 
一 的 视图 ,可 以 进行 相关 的 客户 分 析 , 如 客户 人 数 、 客 户 分 类 、 基 本 需求 等 。 

(2) 加 载 客户 交易 信息 阶段 。 这 一 阶段 主要 是 把 客户 与 银行 分 销 渠 道 的 所 有 交易 数 
据 ,包括 柜台 .ATM、 信 用 卡 ,汇款 ,转账 等 ,加 载 到 中 央 市 场 客户 信息 库 。 这 一 阶段 完成 
后 ,银行 可 以 分 析 客 户 使 用 分 销 渠道 的 情况 和 分 铺 渠 道 的 容量 ,了 解 客户 , 梁 道 ,服务 三 者 
之 间 的 关系 。 

(3) 模型 评测 。 这 是 为 客户 的 每 一 个 账号 建立 利润 评测 模型 ,需要 收入 和 的 确定 多 
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额 ,因此 需要 加 载 系统 的 数据 到 中 央 数 据 库 。 这 一 阶段 完成 后 ,银行 可 以 从 组 织 、 用 户 和 
产品 三 个 方面 分 析 利 润 贡 献 度 。 如 银行 可 以 依 客户 的 利润 贡献 度 安排 合适 的 分 销 渠 道 ， 
模拟 和 预测 新 产品 对 银行 的 利润 贡献 度 等 。 

(4) 优化 客户 关系 。 银 行 应 该 掌握 客户 在 生活 ,职业 等 方面 的 行为 变化 及 外 部 的 变 
化 , 抓 住 推销 新 产品 和 服务 的 时 机 。 这 需要 将 账号 每 天 发 生 的 交易 明细 数据 ,定时 加 载 到 
中 央 数据 仓库 ,核对 客户 行为 的 变化 。 如 有 变化 ,银行 则 利用 客户 的 购买 倾向 模型 渠道 
喜好 模型 .利润 贡献 模型 .信用 和 风险 评测 模型 等 ,主动 与 客户 取得 联系 。 

(5) 风险 评估 。 银 行 风险 管理 的 对 象 主要 是 与 资产 和 负债 有 关 的 风险 ,因此 与 资产 
负债 有 关 的 业务 系统 的 交易 数据 要 加 载 到 中 央 数 据 仓 库 ; 然 后 ,银行 应 按照 不 同 的 期 间 ， 
分 析 和 计算 利率 敏感 性 资产 和 负债 之 间 的 缺口 ,知道 银行 在 不 同期 间 资本 比率 、 资 产 负债 
结构 ,资金 情况 和 净利 息 收入 的 变化 。 


9.1.2 工商 银行 客户 关系 管理 案例 


传统 银行 的 转型 实战 : 看 工商 银行 如 何 利用 大 数据 洞察 客户 心声 ? 
1. 工商 银行 文本 挖掘 技术 应 用 探索 分 享 
工商 银行 在 大 家 传统 的 印象 当中 是 一 个 体形 非常 庞大 但 是 稳步 前 行 的 形象 ,但 是 近 
些 年 来 在 大 数据 的 挑战 下 工商 银行 积极 应 对 外 界 变 化 ,做 了 一 些 转 型 。 其 中 一 个 举措 就 
是 通过 数据 应 用 驱动 业务 变革 。 
工商 银行 每 天 都 在 面临 着 来 自 各 方 的 海量 的 客户 心声 ,最 近 95588 接 到 这 样 一 个 来 
电 , 李 先生 做 了 一 笔 跨行 汇款 操作 ,对 方 还 没有 收 到 ,他 来 询问 什么 时 候 可 以 到 账 ,这 是 一 
个 典型 的 咨询 电话 。 客 户 王 先 生 是 一 个 贵宾 客户 ,他 来 电 反 映 说 在 机 场 和 火车 站 没有 享 
受到 工行 提供 的 贵宾 厅 , 他 希望 工行 在 以 上 场所 做 明显 提示 。 还 有 张 小 姐 到 一 个 支行 网 
点 做 存款 业务 ,发现 里 面 柜员 服务 态度 不 耐烦 ,让 她 很 不 满意 ,她 要 求 把 这 个 情况 记录 下 
来 做 一 个 反映 ,这 是 一 个 典型 的 投诉 电话 。 来 自 各 方 的 海量 数据 分 析 如 图 9. 1 所 示 。 
除了 官方 服务 渠道 之 外 ,现在 客户 越 来 越 希望 通过 互联 网 社交 网 络 的 方式 表达 他 们 
的 心声 ,并 探讨 热点 话题 。 最 近 我 们 监测 到 这 样 一 个 热点 话题 的 讨论 ,有 人 说 :“ 大 家 看 
清楚 了 , 针 孔 摄像 头 就 是 这 样 装 进 ATM 机 偷 看 你 的 密码 的 .” 这 是 一 个 风险 事件 ,工商 银 
行 需要 做 到 及 时 了 解 和 掌握 。 
同时 在 互联 网 的 新 闻 网 站 上 最 近 也 有 一 些 报道 ,有 的 市 民 在 便利 店 蹦 WiFi, 上 了 两 
个 小 时 网 ,他 的 银行 卡 就 被 瓷 刷 了 ,这 个 又 是 怎么 办 到 的 ? 工商 银行 需要 对 这 些 事件 做 到 
了 解 掌控 ,并 且 制 定 对 应 的 措施 。 以 上 这 些 信 息 都 是 以 文本 方式 存在 的 ,我 们 可 以 通过 文 
本 挖掘 的 方法 了 解 用 户 在 说 什么 ,挖掘 出 对 我 们 有 价值 的 信息 ,这 对 工商 银行 客户 服务 的 
提升 会 有 很 大 的 帮助 。 


2. 传统 客户 服务 分 析 流 程 


首先 了 解 一 下 传统 银行 客户 服务 的 分 析 流 程 。 当 客户 拨打 95588 热线 电话 之 后 , 客 
服 座席 会 把 他 说 的 话 和 要 求 记录 下 来 , 存 到 客户 之 声 系统 之 中 ,系统 会 对 结构 化 的 部 分 进 
行 分 析 , 比 如 投诉 的 数量 .客户 对 我 们 满意 度 的 打分 或 问题 处 理 时 效 。 
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客户 : 李 先 生 客户 : 张 小 旭 大 家 看 清楚 了 ! 针 孔 
描述 :客户 到 某 支行 网 点 办 理 提 像 关 就 是 这 样 装 

描述 :客户 致电 询问 一 笔 跨行 存款 业务 ,客户 反映 柜员 服务 进 ATM 机 偷 看 你 密 

汇款 对 方 还 没有 收 到 款项 , 询 态度 不 耐 尖 ,执意 要 求 对 该 栓 码 的 

亲 何 时 可 以 到 账 ? 员 的 服务 态度 进行 反映 。 


描述 :客户 来 电 反映 在 
机 场 及 火车 站 均 未 找到 市 民 在 便利 店 足 
r wifi 两 小 时 银行 卡 
唱 次 剧 仅 剩 1 元 








图 9.1 来 自 各 方 的 海量 的 客户 心声 


对 于 其 中 非 结构 化 数据 的 部 分 ,就 是 客户 说 了 什么 当时 没 办 法 做 自动 分 析 , 这 只 能 由 
分 析 人 员 逐 个 来 看 ,但 毕竟 数量 比较 多 ,人 工 阅读 做 不 到 非常 全 面 , 只 能 做 抽查 ,大 概 看 看 
客户 在 说 什么 。 我 们 监测 分 析 人 员 同 时 还 会 去 登录 一 些 新 闻 网 站 了 解 一 下 近期 有 没有 与 
工行 相关 的 事情 发 生 ,然后 他 会 把 这 个 情况 记录 下 来 ,人 工 编写 这 么 一 个 服务 的 报告 。 当 
时 对 我 们 的 社交 媒体 是 没有 办 法 做 到 关注 的 。 传 统 的 银行 客户 服务 分 析 流 程 如 图 9. 2 
所 示 。 

3. 结合 文本 挖掘 的 客户 服务 分 析 流 程 

在 结合 了 文本 挖掘 技术 之 后 有 了 一 些 流程 变化 ,不 仅 对 结构 化 数据 做 分 析 , 同 时 也 能 
够 从 客户 反馈 的 文本 当中 提取 出 客户 的 热点 意见 ,再 把 热点 去 和 结构 化 数据 做 关联 分 析 ， 
就 能 得 到 更 加 丰富 的 分 析 场 景 。 

同时 ,我们 又 新 建 了 一 套 互联 网 的 监测 分 析 系 统 ,能够 对 互联 网 上 的 金融 网 站 和 社交 
媒体 网 站 做 到 自动 的 监控 和 分 析 , 当 然 有 些 重要 的 事情 发 生 的 时 候 可 以 自动 的 形成 监测 
报告 。 

从 刚才 服务 流程 的 演变 可 以 看 到 有 了 一 些 挖掘 的 功能 ,首先 从 技术 来 说 丰富 了 
分 析 的 手段 ,原来 只 能 对 结构 化 进行 分 析 , 现 在 能 够 对 文本 数据 客户 所 说 的 内 容 进 
行 分 析 ; 其 次 扩大 了 分 析 的 范围 ,原来 只 能 关注 到 工商 银行 官方 服务 渠道 所 记录 下 
来 的 信息 ,现在 能 够 关注 到 在 互联 网 上 所 传播 的 信息 ;最 后 是 提升 了 分 析 的 效率 , 原 
来 需要 员工 逐条 阅读 工 单 ,现在 机 器 自动 阅读 。 结 合 文本 挖掘 的 客户 服务 分 析 流程 
如 图 9. 3 所 示 。 
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传统 的 银行 客户 服务 分 析 流程 
结构 化 数据 _ 和 
意 度 打分 处 
理 时 效 
服务 电话 4 1 系统 
了 号 
a 
监测 分 析 人 员 
<“ ?> - 服务 报告 
. 
社交 媒体 
图 9.2 传统 银行 客户 服务 分 析 流 程 
结合 文本 挖掘 的 客户 服务 分 析 流程 
投诉 数量 满 
yy 了 痢 意 度 打分 处 
理 时 效 热点 
可 是 约 
服务 电话 客户 之 声 系统 号 连续 投诉 


(实现 客户 意见 挖掘 ) 


新 闻 网 站 ped 
意见 建议 


吻 互联 网 监测 分 析 系统 。 监测 报告 


社交 媒体 








图 9.3 结合 文本 挖掘 的 客户 服务 分 析 流 程 


4. 客户 意见 挖掘 业务 价值 


这 些 技术 提升 点 之 后 就 能 在 打响 的 文本 反馈 当中 发 现 客户 的 热点 意见 集中 在 哪些 方 
面 , 如 果 能 够 对 这 些 客户 所 反映 的 共性 问题 主动 发 起 一 些 措 施 , 优 化 业务 流程 ,可 以 提升 
客户 满意 度 和 客户 忠诚 度 ,而 另 一 方面 这 些 来 电 的 投诉 量 会 进一步 的 减少 ,也 就 从 另 一 方 
面 降低 服务 成 本 ,减少 了 二 次 被 动 的 服务 投入 。 客 户 意见 挖掘 业务 的 价值 分 析 如 图 9. 4 
所 示 。 
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提升 分 析 效 率 
图 9.4 客户 意见 挖掘 业务 价值 


9.1.3 银行 风险 管理 


1. 


从 信用 卡 账单 刷卡 数据 中 ,我 们 可 以 分 析出 什么 


对 于 刷卡 消费 类 的 数据 分 析 , 如 果 能 够 拿 到 所 有 人 的 信用 卡 消费 数据 (一 个 人 可 能 有 
多 张 信 用 卡 ) ,那么 拿 到 这 些 信 用 卡 消费 数据 应 该 如 何 展开 分 析 , 如 图 9.5 所 示 。 


人 == 多 g ) | 
从 信用 卡 账 单刷 卡 数 据 中 
我 们 可 以 分 析出 什么 ? 


图 9.5 银行 信用 卡 风险 管理 





对 于 用 户 消费 行为 分 析 谈 得 比较 多 的 思路 仍然 是 需要 首先 搞 清楚 分 析 的 目标 ,然后 
再 根据 目标 的 分 析 去 采集 和 处 理 需要 的 数据 信息 。 即 数据 分 析 本 身 是 KPI 驱动 的 ,那么 


如 果 从 





最 原始 的 数据 明细 入 手 , 应 该 如 何 进行 展开 和 数据 维度 的 拓展 ? 


对 于 有 信用 卡 的 人 ,我 们 收 到 的 信用 卡 账单 ,往往 有 最 简单 的 消费 明细 数据 ,如 下 : 

消费 清单 ( 持 有 卡 人 卡号 ,姓名 ,消费 商家 ,消费 时 间 , 消 费 金 额 ) 

可 以 看 到 这 个 消费 明细 数据 本 身 是 相对 简单 的 ,如 果 不 结合 其 他 的 数据 维度 ,单纯 地 
去 做 统计 分 析 并 不 会 产生 太 多 的 作用 。 任 何 数据 分 析 都 需要 结合 对 原始 数据 的 维度 拓展 
上 ,维度 拓展 后 整个 数据 模型 会 更 加 丰富 , 则 可 以 产生 多 维度 的 分 析 和 数据 聚合 , 如 
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图 9.6 所 示 。 





图 9.6 信用 卡 账单 刷卡 数据 分 析 


对 于 上 面 的 消费 详细 清单 数据 ,简单 来 看 可 以 进行 如 下 扩展 : 

人 员 信息 (人 员 姓 名 ,身份 证 号 ,年 龄 ,姓名 ,职业 类 型 ,居住 地 址 ,家 庭 信息 ) 

商家 信息 (商家 名 称 , 商 家 地 址 ,商家 经 营 类 型 ) 

有 了 人 员 信 息 就 有 第 一 层 拓展 , 即 对 数据 的 聚合 可 以 基于 人 员 的 属性 维度 , 即 我 们 拿 
到 的 消费 明细 数据 ,可 以 按照 消费 者 性 别 、 年 龄 段 .职业 类 型 等 进行 聚合 。 对 于 人 员 的 识 
别 唯 一 码 不 是 姓名 ,而 是 人 员 的 身份 证 号 码 , 即 通过 身份 证 号 码 可 以 对 一 人 多 张 信 用 卡 的 
消费 数据 进行 聚合 。 

有 了 商家 信息 ,就 可 以 根据 商家 的 经 营 类 型 对 不 同类 型 的 消费 数据 进行 聚合 。 同 时 
可 以 看 到 ,对 于 商家 详细 地 址 信息 本 身 是 无 法 进行 聚合 的 。 那 就 要 考虑 在 主体 对 象 的 属 
性 中 的 单个 属性 本 身 的 层次 扩展 , 即 地 址 信息 可 以 进行 扩展 , 即 城市 ~ 区 一 区 域 消 费 区 
域 ~ 商 圈 一 大 商场 ~ 具体 地 址 。 

如 果 地 址 有 了 这 个 扩展 ,就 可 以 看 到 最 终 的 消费 数据 可 以 做 到 按 消 费 区 域 进行 聚合 ， 
我 们 可 以 分 析 某 一 个 商 圈 或 商场 的 消费 汇总 数据 ,而 这 个 数据 本 身 则 是 从 原始 消费 明细 
数据 中 进行 模型 扩展 出 来 的 。 

可 以 看 到 ,任何 动态 的 消费 明细 数据 ,必须 要 配合 大 量 的 基础 主 数据 ,这 些 基础 主 数 
据 可 能 有 表格 结构 也 可 能 是 维度 结构 ,这 些 数据 必须 要 整理 出 来 并 关联 映射 上 详细 的 消 
费 明细 数据 。 这 样 ,最 终 的 消费 数据 才 容易 进行 多 维度 的 分 析 。 

消费 时 间 本 身 也 是 重要 的 维度 ,可 以 根据 时 间 段 进行 数据 汇总 ,同时 时 间 本 身 可 以 按 
年 , 按 季 度 、 按 月 逐 层 展开 ,也 是 一 种 可 以 层次 化 展开 的 结构 。 同 时 应 注意 到 时 间 本 身 还 
可 以 进行 消费 频 度 的 分 析 , 即 某 一 个 时 间 段 里 面 的 刷卡 次 数 数据 ,根据 消费 频 度 可 以 反 推 
到 某 一 个 区 域 本 身 在 某 些 时 间 段 的 热度 信息 。 

如 果 仅 仅 是 信用 卡 的 刷卡 消费 清单 数据 ,我 们 比较 难以 定位 到 具体 的 商品 SKU 信 
息 上 ,如 果 是 一 个 大 型 超市 , 则 对 于 详细 的 用 户 消费 购买 数据 ,还 可 以 明细 到 具体 的 商品 
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上 , 则 商品 本 身 的 维度 属性 展开 又 是 可 以 进行 拓展 分 析 和 聚合 的 内 容 。 

数据 本 身 可 能 具备 相关 性 ,刷卡 消费 的 数据 往往 可 以 和 其 他 数据 直接 发 生 相关 性 , 比 
如 一 个 地 区 发 出 的 大 事件 、 在 一 个 区 域 举办 的 营销 活动 以 及 从 交通 部 门 获取 到 的 某 个 区 
域 的 交通 流量 数据 。 这 些 都 可 能 和 最 终 的 消费 数据 发 生 某 种 意义 上 的 相关 性 。 

如 果 仅仅 是 从 而 卡 数据 本 身 , 前 面谈 到 可 以 根据 商户 定位 到 商家 的 经 营 范围 , 完 竟 是 
餐饮 类 的 还 是 服装 类 的 。 根 据 不 同 的 经 营 类 型 可 以 分 别 统计 刷卡 消费 数据 ,然后 就 可 以 
分 析 , 对 于 餐饮 类 的 消费 金额 增加 的 时 候 服 装 类 的 消费 是 否 会 增加 , 即 餐 饮 商家 究竟 对 一 
个 商场 的 其 他 用 品 的 销售 有 无 带动 作用 等 ? 

同样 的 道理 ,对 于 人 员 可 以 分 析 不 同年 龄 段 的 人 员 的 消费 数据 之 间 是 否 存在 一 定 的 
相关 性 ,这 些 相关 性 究竟 存在 于 哪些 类 型 的 商品 销售 上 等 。 这 些 分 析 将 方便 我 们 制定 更 
加 有 效 的 针对 性 营销 策略 。 

2. 信用 卡 客户 价值 分 析 

让 历史 告诉 未 来 。 客 户 价值 分 析 就 是 通过 数学 模型 由 客户 历史 数据 预测 客户 未 来 购 
买 力 ,这 是 数据 挖掘 与 数据 分 析 中 一 个 重要 的 研究 和 应 用 方向 。RMEF 方法 就 是 让 历史 告 
诉 未 来 的 趋势 分 析 法 ,利用 RMF 方法 科学 地 预测 老 客户 未 来 的 购买 金额 ,然后 对 产品 成 
本 ,关系 营销 费用 等 进行 推算 , 即 可 按 年 , 按 季度 , 按 月 预测 出 客户 未 来 价值 。 这 里 以 信用 
卡 为 例 , 讨 论 和 分 析 信用 卡 客户 价值 。 

1) 预测 模型 

对 银行 而 言 ,预测 客户 未 来 价值 能 够 使 银行 将 传统 的 整体 大 众 营销 推进 到 分 层 差 异 
化 营销 ,一 对 一 差异 化 营销 的 高 度 ,对 不 同 的 分 层 客户 采取 不 同 的 营销 模式 .产品 策略 和 
服务 价格 ,从 而 推动 和 促进 客户 购买 交易 ， 

根据 RFM 方法 “客户 价值 "预测 模型 为 ， 

客户 未 来 价值 一 银行 未 来 收益 一 未 来 产品 成 本 一 未 来 关系 营销 费用 

对 于 信用 卡 客户 ,我 们 定义 此 处 的 “未 来 "是 指 未 来 一 年 (也 可 以 是 未 来 一 季度 )。“ 银 
行 收益 "包括 信用 卡 年 费 、 商 户 佣金 .逾期 利息 以 及 其 他 手续 费 等 ;* 产 品 成 本 " 即 产品 研 
发 .维护 和 服务 成 本 ,包括 发 卡 制 卡 . 换 卡 和 上 邮寄 等 费用 以 及 其 他 服务 费用 ;" 关 系 营销 费 
用 * 即 关系 维护 和 营销 成 本 ,包括 商户 活动 .积分 礼品 兑换 ,营销 宣传 等 

RFM 方法 是 目前 国际 上 最 成 熟 .最 通用 .最 被 接受 的 客户 价值 分 析 的 主流 预测 方法 。 
实际 上 , RFM 方法 是 一 整套 客户 价值 分 析 方法 中 的 一 部 分 (其 中 ,R: 最 近 购买 日 
Recency'F: 购买 频率 Frequency,M: 平均 单 次 购买 金额 Monetary) ,但 是 RFM 方法 最 
具有 代表 性 ,其 他 还 包括 客户 购买 行为 随机 过 程 模型 . 马 可 夫 链 状态 移 转 矩 阵 方法 . 贝 氏 
几率 推导 状态 移 转 概率 方法 和 拟 合 回归 分 析 方法 等 。 

(1) 预测 未 来 收益 。 

由 于 “银行 收益 "包括 信用 卡 年 费 . 商 户 佣金 . 谷 期 利息 以 及 其 他 手续 费 等 ,这 里 统一 
称 为“ 购买 金额 "。 因 此 “客户 未 来 购买 金额 "预测 模型 为: 

作 所 术 玉 未来 购买 频率 X 未 来 平均 金额 X 未 来 购买 频率 概率 X 未 来 平均 金额 概率 


其 中 ,未 来 购买 频率 、 未 来 平均 金额 \ 未 来 购买 频率 概率 、 未 来 平均 金额 概率 均 可 通过 客户 
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购买 行为 的 随机 过 程 模 型 来 描述 和 求解 。 对 于 信用 卡 客户 ,“ 客 户 购 买 行为 "包括 刷卡 、 透 
支取 现 、 支 付 . 分 期 等 ,以 及 客户 消费 习惯 还 款 习 惯 \ 收 入 贡献 ,信用 额度 、 用 卡 来 往 区 
间 .逾期 时 长 .客户 服务 和 副 卡 的 客户 购买 行为 等 。 

根据 RFM 方法 预测 过 程 ,随机 过 程 模型 除了 推导 和 计算 客户 未 来 购买 频率 概率 .未 
来 平均 金额 概率 的 密度 分 配 之 外 ,还 隐藏 着 客户 未 来 购买 频率 、 未 来 平均 金额 的 状态 移 转 
期 望 值 和 概率 。 因 此 ,除了 使 用 随机 过 程 模型 之 外 ,还 需 使 用 贝 氏 几率 方法 推导 状态 移 转 
期 望 值 和 概率 。 

此 外 ,要 科学 地 分 析 和 预测 客户 未 来 价值 ,有 必要 用 长 度 和 宽度 的 二 维 样本 数据 建立 
一 套牢 固 、 可 靠 的 随机 过 程 模 型 ,样本 越 大 ,客户 未 来 价值 的 预测 结果 就 越 接近 未 来 的 事 
实 。 其 中 二 维 样本 数据 是 指 客户 购买 频率 与 购买 金额 是 两 个 相互 独立 的 不 同 的 行为 维 
度 , 不 具有 相关 性 。 

(2) 预测 未 来 产品 成 本 和 关系 营销 费用 。 

RFM 方法 只 能 预测 客户 未 来 购买 金额 (或 银行 未 来 收益 情况 ) , 却 不 能 预测 出 未 来 产 
品 成 本 和 关系 营销 费用 。 而 采取 平均 法 或 移动 平均 法 将 客户 历史 价值 .历史 关系 营销 费 
用 直接 应 用 到 客户 未 来 ,显然 不 适合 ;同样 ,采取 RFM 方法 的 概率 分 析 方 法 来 推断 客户 
未 来 价值 也 是 不 适合 的 。 因 为 未 来 产品 成 本 和 未 来 关系 营销 费用 并 不 是 源 自 客户 的 随机 
行为 ,而 是 由 银行 整体 产品 成 本 控制 和 差异 化 营销 决定 的 ,其 未 来 变化 不 一 定 具 有 平滑 趋 
势 ,未 来 客户 的 情况 可 能 会 出 现 逆反 或 拉动 。 因 此 ,预测 未 来 产品 成 本 和 关系 营销 费用 需 
要 采取 其 他 方法 。 

首先 要 明确 ,未 来 产品 成 本 和 未 来 关系 营销 费用 并 不 是 随机 现象 ,而 是 遵循 各 自发 生 
的 规律 ; 且 客 户 未 来 关系 营销 费用 服从 客户 历史 关系 营销 费用 与 购买 金额 的 比例 , 即 服从 
关系 营销 投入 产 出 比 。 对 于 信用 卡 客户 而 言 , 通 常 以 “年 ”为 最 小 期 数 进行 分 析 和 预测 , 历 
史 区 间 和 未 来 区 间 是 连续 的 , 即 两 者 之 间 无 交易 期 数 。 所 以 ,未 来 产品 成 本 和 未 来 关系 营 
销 费 用 的 变化 符合 银行 整体 产品 成 本 和 营销 费用 的 线性 拟 合 回归 规律 。 

因此 ,对 于 信用 卡 客户 “未 来 产品 成 本 ?预测 模型 为 : 

未 来 产品 成 本 二 未 来 购买 金额 X (1 一 CRM 毛利 率 ) 
CRM 毛利 二 购买 金额 一 产品 成 本 一 关系 营销 费用 

对 于 “未 来 关系 营销 费用 ”, 定 义 : 

Ratei = 》 客户 历史 关系 营销 费用 / > ) 客户 历史 购买 金额 
Expensei 二 客户 历史 最 小 关系 营销 费用 ( 须 大 于 0) 
Monetaryi 二 客户 未 来 购买 金额 

X= Monetaryi X Ratei 

因此 ,如 果 X 二 Expensei, 那 么 “未 来 关系 营销 费用 ?= 王 X。 和 否则 ,如 果 Monetaryi< 
Expensei, 那 么 “未 来 关系 营销 费用 ” 王 X; 如 果 Monetaryi 宇 Expensei, 那 么 “未 来 关系 营 
销 费 用 ”一 Expensei。 

2) 客户 价值 

从 以 上 分 析 可 知 ,客户 价值 二 CRM 毛利 三 购买 金额 一 产品 成 本 一 关系 营销 费用 。 
因此 ,在 完整 的 客户 关系 生命 周期 内 ( 即 从 建立 关系 到 未 流失 的 最 近 一 次 交易 ) ,分 析 客 户 
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未 来 价值 的 意义 远 远 大 于 分 析 客 户 历史 价值 ,因此 通常 意义 上 的 客户 价值 分 析 就 是 对 客 
户 未 来 的 价值 进行 分 析 和 预测 。 

对 于 预测 出 的 客户 未 来 价值 的 结果 ,可 按 客户 价值 分 层 , 并 将 传统 的 整体 大 众 营销 推 
进 到 分 层 差 异化 营销 一 对 一 差异 化 营销 的 高 度 ,其 立足 点 就 是 客户 价值 的 差异 化 分 析 。 

通过 分 析 和 预测 客户 未 来 价值 , 即 可 清楚 一 旦 高 端 客户 ,大 客户 流失 将 会 造成 未 来 怎 
样 的 利润 损失 ,也 可 以 挖掘 出 那些 临近 亏损 或 负 价值 的 客户 ,并 进行 置疑 分 析 , 找 出 对 策 。 
但 同时 也 要 认识 到 ,即使 预测 出 客户 的 未 来 价值 较 高 ,也 只 能 说 明 其 价值 势能 ( 即 潜在 购 
买 力 ) 较 高 ,坐等 客户 主动 上 门 的 价值 动能 (实际 购买 力 ) 是 不 现实 的 ,还 需要 通过 其 他 沟 
通 交流 和 营销 渠道 (如 人 工 座席 外 呼 .短信 发 送 、 微 博 私信 、 微 信 、 邮 件 推送 等 ) 与 客户 互 
动 ,推动 客户 追加 购买 .交叉 购买 。 


9.2 保险 业 应 用 


9.2.1 保险 产业 拥抱 “大 数据 时 代 ” 或 带 来 颠覆 性 变革 


当今 ,数据 已 经 渗透 到 每 一 个 行业 和 业务 领域 ,成 为 重要 的 生产 因素 。 人 们 对 于 海量 
数据 的 挖掘 和 运用 ,预示 着 新 一 波 生产 率 增长 和 消费 者 一 余 浪 潮 的 到 来 。 中 国 的 保险 销 
售 模式 正在 酝酿 新 的 变革 ,互联 网 、 大 数据 时 代 的 到 来 给 金融 业 造 成 的 革命 性 ,颠覆 性 的 
变化 正在 发 酵 ,对 保险 业 数据 驾驭 能 力 提出 了 新 的 挑战 ,也 为 保险 业 的 大 发 展 提供 了 前 所 
未 有 的 空间 和 潜力 。 

1. 深入 挖掘 大 数据 应 用 潜质 

目前 ,大 多 数 保险 企业 都 已 经 认识 到 “大 数据 "改善 决策 流程 和 业务 成 效 的 潜能 ,但 却 
不 知道 该 如 何人 手 ,部 分 企业 在 “大 数据 ”的 时 代 浪 潮 下 积极 探索 ,成 为 先行 者 。2010 年 ， 
阳光 保险 集团 建成 数据 挖掘 系统 ,这 在 保险 行业 是 第 一 家 。 利 用 该 系统 ,开展 了 许多 保险 
大 数据 智慧 应 用 的 项 目 , 获 得 了 一 些 成 果 , 同 时 培养 出 了 国内 保险 行业 的 第 一 批 数据 挖 
气 师 。 

通过 深度 挖掘 和 开发 数据 资源 ,提供 可 以 用 作 产品 定价 的 .承保 口径 的 逐 单数 据 , 系 
统 的 行业 终极 赔付 分 析 以 及 符合 中 国 本 土 市 场 的 财产 险 风险 曲线 , 直 保 公司 可 以 根据 这 
些 数据 来 分 析 某 类 风险 的 保险 费 率 水 平 ,了 解 公 司 与 行业 合理 定价 水 平 的 差距 ,促进 理性 
分 析 经 营 。 同 时 ,分 析 结果 还 可 以 应 用 到 营销 .业务 拓展 等 方面 ,为 直 保 公司 决策 提供 

2013 年 ,中 国 财 险 再 保险 公司 行业 数据 分 析 中 心 正式 挂牌 成 立 , 这 是 保险 企业 追赶 
“大 数据 ?时 代 浪 潮 的 一 次 标志 性 事件 。 早 在 1996 年 中 再 保险 公司 就 利用 与 直 保 公司 的 
非 竞争 关系 ,积极 对 数据 进行 集约 化 管理 ,拓展 与 直 保 公 司 在 数据 分 析 领 域 的 合作 。 

大 数据 应 用 的 关键 是 理念 。 思 维 转变 了 ,数据 就 能 被 巧妙 地 用 来 激发 新 产品 和 新 型 
服务 。 举 一 个 利用 与 不 利用 数据 结果 相去 甚 远 的 例子 :“ 淘 宝 现 有 一 种 运费 保险 , 即 淘宝 
买 家 退货 时 产生 的 退货 运费 原本 由 买 家 承担 ,如 果 买 家 购买 了 运费 保险 ,退货 运费 由 保险 
公司 来 承担 。 这 种 购买 的 结果 是 保险 公司 经 营 亏损 很 严重 ,直接 导致 它们 不 愿意 再 发 展 
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和 扩大 运费 保险 .” 运 费 保险 真 的 必然 亏损 吗 ? 答案 是 否定 的 。 保 险 公 司 设计 一 套 大 数据 
智慧 应 用 的 解决 方案 :“ 因 为 退货 发 生 的 概率 , 跟 买 家 的 习惯 ,卖家 的 习惯 、 商 品 的 品种 、 
商品 的 价值 .淘宝 的 促销 活动 等 都 有 关系 ,所 以 ,使 用 以 上 种 种 数据 ,应 用 数据 挖掘 的 方 
法 ,建立 退货 发 生 的 概率 模型 , 植 人 系统 就 可 以 在 每 一 笔 交 易 发 生 的 时 候 , 给 出 不 同 的 保 
险 费 率 , 使 保险 费 的 收取 ,与 退货 发 生 的 概率 相 匹配 ,这 样 运费 险 就 不 会 亏损 了 。 在 此 基 
础 上 ,保险 公司 才 有 可 能 通过 运费 险 扩大 客户 覆盖 面 。 由 严重 亏损 到 成 本 控制 得 当 并 获 
取 客 户 , 靠 的 就 是 通过 分 析 ,挖掘 大 数据 所 提供 的 价值 ,吸引 客户 。 

2. 大 数据 网 络 保险 时 代 来 临 

大 数据 发 展 的 障碍 ,在 于 数据 的 “流动 性 ”和 “可 获取 性 ”, 而 网 络 完美 地 解决 了 这 个 问 
题 。 通 过 网 络 对 大 数据 进行 收集 、 发 布 .分 析 、 预 测 会 使 决策 更 为 精准 ,释放 更 多 数据 的 隐 
藏 价值 。 与 传统 保险 方式 相 比 ,网 络 保险 具有 降低 保险 公司 和 保险 中 介 机 构 运营 成 本 , 拓 
展 保险 公司 和 保险 中 介 机 构 业 务 范围 ,新 型 营销 手段 ,有 价值 的 交互 式 交流 工具 ,提供 较 
高 水 平 的 信息 服务 ,为 客户 提供 便捷 工具 ,使 客户 享受 个 性 化 服务 ,降低 保险 公司 风险 ,更 
有 效 地 保护 客户 隐私 以 及 虚拟 化 的 交易 方式 等 特性 。 

从 产品 设计 角度 来 说 ,大 数据 时 代 下 的 网 络 保险 能 最 大 程度 地 满足 不 同 客户 的 个 性 
化 需求 ,网 络 保险 能 优化 客户 的 体验 “大 数据 ?能 根据 客户 需求 设计 出 真正 让 客户 满意 的 
产品 和 服务 ,两 者 结合 则 完全 是 “以 客户 为 中 心 的 。 

从 大 数据 时 代 的 网 络 销售 优势 来 看 ,一 是 大 数据 时 代 保险 网 销 具有 最 广泛 的 客户 群 ， 
有 最 大 的 发 展 潜力 。 二 是 互联 网 具有 信息 量 大 、 传 导 速 度 快 ,透明度 高 的 特点 ,交易 双方 
信息 更 为 对 称 。 通 过 建立 新 型 的 “自动 式 ” 网 络 服务 系统 , 保 户 足 不 出 户 就 可 以 方便 快捷 
地 从 保险 公司 的 服务 系统 上 获取 公司 背景 到 具体 保险 产品 的 详细 情况 ,还 可 以 自由 地 选 
择 所 需要 的 保险 公司 及 险种 ,并 进行 对 比 ,能 获得 低 价 、 高 效 服务 。 三 是 节省 费用 ,降低 成 
本 。 通 过 网 络 出 售 保险 或 提供 服务 ,保险 公司 只 需 支 付 低廉 的 网 络 服务 费 ,从 而 降低 房 
租 、 佣 金 、 薪 资 .印刷 费 ,交通 费 . 通 讯 费 等 成 本 的 支出 。 四 是 数据 管理 方面 的 天 然 优势 。 
保险 市 场 专 业 化 的 深入 ,经营 水 平 的 提高 .服务 品质 的 提升 ,都 要 建立 在 对 数据 尤其 对 客 
户 消费 数据 的 深入 挖掘 和 分 析 的 基础 之 上 。 

可 见 , 大 数据 时 代 下 的 网 络 保险 有 利于 推动 营销 体制 改革 。 多 年 来 ,我 国 一 直 以 保险 
代理 人 作为 保险 推销 体系 的 主体 重点 发 展 ,在 寿险 推销 方面 形成 了 以 寿险 营销 员 为 主体 
的 寿险 营销 体系 。 但 是 ,目前 这 种 体制 还 存在 较为 突出 的 问题 。 因 客户 缺乏 与 保险 公司 
的 直接 交流 ,会 导致 营销 人 员 为 急于 获取 保单 而 一 味 夸大 投保 的 益处 ,隐瞒 不 足 之 处 ,给 
保险 公司 带 来 极 大 的 道德 风险 ,为 保险 业 的 长 远 发 展 埋 下 隐患 。 而 且 ,保险 营销 人 员 素 质 
良 劳 不 齐 , 又 给 保险 公司 带 来 极 大 的 业务 风险 。 此 外 , 现 有 营销 机 制 还 存在 效率 低下 的 
整 端 。 

因此 ,在 大 数据 时 代 下 发 展 网 络 保险 ,可 以 快速 便捷 地 进行 信息 收集 发布 ,完美 地 实 
现 大 数 法 则 的 精致 应 用 。 为 公众 提供 低 成 本 ,高 效率 的 保险 服务 。 


3. 网 络 保险 需 多 项 配套 支持 
一 是 财政 支持 。 在 推进 保险 公司 的 信息 化 进程 中 ,政府 可 采取 诸如 信息 技术 方面 的 


本 


投资 部 分 抵消 税收 , 税 前 可 以 预 留 部 分 资金 用 于 信息 技术 改造 等 一 系列 措施 ,激励 和 推进 
大 数据 网 络 保险 信息 化 进程 。 

二 是 培育 网 络 保险 集 市 。 网 络 保险 集 市 就 是 在 网 络 上 提供 一 个 场所 ,使 客户 能 在 这 
里 找到 大 量 的 保险 公司 ,方便 了 解 各 个 公司 的 基本 信息 或 查询 各 个 保险 公司 的 某 一 险种 
的 有 关 信 息 , 并 对 该 险种 的 优 劣 进行 对 比分 析 , 选 择 最 佳 的 公司 进行 投保 。 网 络 保险 集 市 
不 仅 会 给 客户 带 来 方便 ,同时 也 会 扩大 保险 公司 的 影响 和 业务 量 。 因 此 ,保险 公司 应 在 保 
监 会 和 保险 协会 的 组 织 下 ,全 力 支持 并 在 网 络 保险 集 市 上 展示 自己 ,进一步 推动 我 国 网 络 
保险 集 市 的 发 展 。 

三 是 建设 大 数据 中 心 。 大 数据 中 心 需 要 保监会 和 保险 行业 进行 战略 性 的 顶层 设计 。 
首先 是 与 我 国标 准 化 数据 管理 中 心 进行 合作 ,制定 出 保险 业 数 据 标准 化 的 制度 。 其 次 是 
通过 5 一 10 年 的 时 间 逐 步 完 成 行业 数据 标准 化 建设 。 同 时 设计 出 非 线 性 融合 关系 数据 ， 
并 能 进一步 扩展 的 数据 库 。 此 外 是 设计 柔性 的 框架 和 接口 。 通 过 以 上 步骤 逐步 完成 我 国 
保险 业 大 数据 中 心 的 建设 。 

四 是 开发 适合 的 险种 。 利 用 网 络 收集 数据 形成 大 数据 ,利用 大 数 法 则 设计 客户 需求 
的 产品 ,通过 网 络 销售 产品 ,并 根据 客户 反馈 进一步 修正 产品 ,实现 开发 与 销售 完美 互动 。 

五 是 吸纳 优秀 人 才 和 对 已 有 员工 在 职 教育 。 许 多 保险 公司 有 一 个 规定 , 即 无 论 是 管 
理 人 员 还 是 技术 人 员 都 必须 完成 一 定 的 保险 任务 。 似 乎 这 条 规定 能 为 公司 增加 一 点 业务 
量 , 但 是 它 无 形 之 中 会 把 一 些 优秀 的 保险 管理 人 员 和 技术 人 员 拒 之 于 门 外 。 大 数据 时 代 
需要 一 流 的 管理 人 才 和 技术 人 才 ,必须 破除 这 条 不 成 文 的 规定 。 同 时 还 应 该 重视 对 已 有 
员工 进行 保险 专业 知识 ,外 语 知识 和 信息 技术 知识 再 教育 ,通过 再 教育 提高 公司 员工 综合 
素质 。 

六 是 责任 与 自由 并 举 的 信息 管理 。 调 查 显示 ,66% 的 被 调查 者 最 关心 投保 后 支付 保 
费 的 转账 安全 性 。 消 费 者 对 于 网 络 消费 的 顾虑 心理 主要 集中 在 对 网 上 交易 安全 和 个 人 隐 
私 保护 的 担忧 上 。 因 此 ,网 络 保险 应 格外 注重 网 络 安全 ,实现 责任 与 自由 的 矛盾 的 和 谐 
统一 。 


9.2.2 保险 欺诈 识别 


没有 核 保 压力 ,网 销 意外 险 领域 更 易 出 现 欺诈 案件 ; 随 着 欺诈 手法 的 复杂 化 , 反 欺诈 
也 需 用 到 大 数据 进行 智能 化 反击 。 除 了 欺诈 案件 高 发 的 车 险 领域 ,当前 ,保险 欺诈 正在 向 
更 大 领域 蔓延 ,在 意外 险 、 互 联网 保险 以 及 农业 保险 等 诸多 领域 ,保险 欺诈 也 正在 显露 
苗头 。 

上 海 保 监 局 面 对 保险 欺诈 , 则 充分 利用 上 海 保 险 业 的 信息 平台 技术 优势 ,推行 大 数据 
智能 化 反 保险 欺诈 工作 模式 ,有 效 打击 保险 欺诈 。 


1. 网 销 意外 险 更 易 发 生 欺诈 


深圳 保 监 局 日 前 发 布 消息 称 ,该 地 区 发 生 了 几 起 互联 网 保险 欺诈 案件 ,在 回复 (证 券 
日 报 ) 记 者 采访 时 ,该 局 称 ,这 几 起 案件 的 涉案 金额 不 大 ,目前 尚未 结案 , 且 未 有 法 院 判 决 
结果 ,因此 ,目前 尚 不 便 公 开具 体 案情 。 但 业界 人 士 认 为 ,互联 网 保险 欺诈 风险 事实 上 已 
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经 显露 出 苗头 。 

此 前 ,安徽 保 监 局 也 发 布 消息 称 ,互联 网 保险 存在 较 大 的 道德 风险 ,“ 短 意 险 客户 可 以 
通过 网 络 购买 不 同 公 司 的 短期 意外 险 产 品 , 目 前 已 查 明 个 别 高 风险 客户 在 多 个 公司 累计 
投保 金额 超过 千 万 元 ”安徽 保 监 局 在 其 调研 报告 中 特别 强调 了 网 销 短期 意外 险 发 生 的 风 
险 ,数据 也 表明 ,意外 险 正 是 目前 网 销 保险 最 主要 的 品种 。 

江苏 省 公布 的 2007 一 2013 年 江苏 十 大 典型 保险 欺诈 案件 中 ,其 中 一 件 即 为 投保 人 以 
本 人 作为 被 保险 人 ,投保 了 1000 余万元 的 人 身 意外 伤害 保险 。 此 后 ,该 投保 人 买 来 排骨 ， 
在 条 排 骨 时 故意 将 自己 左手 食指 近 节 指 端 判断 ,被 鉴定 为 七 级 伤 残 。 在 到 保险 公司 索赔 
过 程 中 案 发 ,该 投保 人 被 法 院 以 保险 欺诈 罪 (未 遂 ) 判 处 有 期 徒刑 6 年 ,并 处 罚金 5 万 元 。 

业内 人 士 认为 ,实际 上 ,很 多 保险 公司 无 论 是 网 销 意外 险 还 是 其 他 渠道 销售 该 险种 ， 
都 没有 严格 的 核 保 流 程 ,也 缺乏 相应 的 技术 手段 了 解 投保 人 在 其 他 平台 的 投保 情况 , 因 
此 ,意外 险 的 欺诈 风险 并 非 网 销 渠 道 专属 ,不 过 ,对 于 投保 人 而 言 ,通过 网 络 购买 比 其 他 方 
式 更 加 方便 ,也 缺少 被 核 保 的 心理 障碍 ,因此 更 容易 通过 这 种 方式 实施 保险 欺诈 。 

2. 大 数据 智能 反 欺诈 兴起 

对 于 保险 公司 和 监管 层 而 言 , 一 方面 要 解决 理赔 难 问题 , 另 一 方面 也 须 过 制 保险 欺 
诈 。 为 净化 保险 环境 ,遏制 保险 欺诈 ,不 少 地 方 采取 了 多 种 措施 ,包括 不 同 部 门 联手 打击 
保险 欺诈 ,建设 信息 平台 杜绝 信息 孤岛 等 方式 。 

“保险 公司 内 控 薄弱 ,是 保险 欺诈 案件 时 有 发 生 的 主要 原因 。” 吉 林 保 监 局 在 调研 报告 
中 指出 。 为 此 ,各 地 在 反 保险 欺诈 工作 中 ,不 仅 要 求 保 险 公司 加 强 内 控 , 同 时 ,针对 保险 其 
诈 涉及 人 员 多 等 特点 , 反 保险 欺诈 工作 还 通常 与 公安 ,法 院 , 检 察 院 等 部 门 形成 常态 合 
机 制 ,例如 ,陕西 就 建立 并 完善 了 “高 风险 修理 厂 数据 库 ”“ 高 风险 客户 数据 库 ” 和 “高 风险 
从 业 人 员 数 据 库 ”, 为 保险 公司 提供 预警 和 服务 。 陕 西 反 保险 欺诈 中 心 成 立 一 年 以 来 ,各 
公司 共 向 中 心 送 报 可 疑 线 索 1819 件 , 涉 及 金额 约 7000 万 元 ;全 省 公安 经 侦 部 门 侦破 保险 
欺诈 件 29 起 ,涉案 金额 603 万 元 。 因 涉嫌 保险 欺诈 ,投保 人 或 被 保险 人 主动 放弃 索赔 或 
公司 拒 赔 案件 达 1368 件 ,为 保险 公司 预防 和 挽回 经 济 损失 达 5531 万 元 。 

上 海 保 监 局 面 对 保 险 欺诈 , 则 充分 利用 上 海 保险 业 的 信息 平台 技术 优势 ,依托 “机 动 
车 辆 保险 联合 信息 平台 ”“ 人 身 险 综合 信息 平台 ”和 * 道 路 交通 事故 检验 鉴定 信息 系统 ”， 
推行 大 数据 智能 化 反 保险 欺诈 工作 模式 ,具体 包括 利用 大 数据 方式 进行 风险 预警 关联 排 
查 以 及 数据 串 并 ,通过 这 些 方式 有 效 打击 保险 欺诈 。 近 期 ,上 海 保险 行业 识别 并 移送 了 一 
起 勾结 二 手 车 商贩 故意 制造 交通 事故 的 “一 条 龙 ”车 险 团伙 欺诈 案 , 经 线索 串 并 排查 后 ， 
案件 涉及 赔 案 60 余 起 、 总 金额 超过 100 万 元 ,涉及 人 员 20 余人 。 该 案 经 公安 机 关 侦破 ， 
目前 主要 犯罪 嫌疑 人 已 被 判刑 。 

针对 互联 网 时 代 对 的 保险 监管 ,江西 保 监 局 提出 ,传统 保险 监管 无 法 完全 满足 互联 网 
保险 的 监管 要 求 ,互联 网 保险 带 来 的 新 风险 需要 专业 的 风险 监测 和 管控 。 虚 拟 网 络 世 界 
跨 省 跨 地 域 ,需要 进一步 整合 监管 资源 ,保险 监管 在 属地 化 管理 过 程 中 面临 跨 省 监管 的 问 
题 , 需 要 上 下 联动 .各 局 配合 ,委托 监管 和 检查 。 该 局 还 指出 ,要 加 强 保险 .银行 和 证 券 的 
监管 合理 ,提升 监管 效能 ,还 需要 建立 保险 业 网 络 征 信 数 据 库 反 保 险 欺诈 。 
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9.3 ”证券 期 货 应 用 
9.3.1 安徽 使 用 大 数据 监管 证 券 期 货 


多 年 以 来 ,股市 的 波动 牵动 着 大 家 的 心 ,目前 安徽 正在 使 用 大 数据 “电子 眼 ?对 证 券 期 
货 市 场 进 行 监管 ,60% 的 违规 运作 都 是 通过 大 数据 抓 取 发 现 的 。 

1. 违规 证 券 期 货 难 逃 * 电 子 眼 ” 

普通 商家 的 监管 有 工商 的 例 行 检 查 , 但 是 金融 领域 的 违规 不 免 有 一 些 隐蔽 性 。 然 而 ， 
这 样 的 隐蔽 性 如 果 未 被 发 现 ,会 给 投资 者 带 来 巨大 的 经 济 损失 。 安 徽 正 在 用 科技 手段 破 
解 这 一 难题 。 

“证 券 期 货 公 司 的 各 项 数据 都 在 系统 之 中 ,如 果 有 人 试图 进行 违规 操作 ,大 数据 都 会 
发 现 。 这 个 大 数据 系统 的 违规 抓 取 成 功率 非常 高 , “电子 眼 ” 并 不 那么 好 骗 。 目 前 我 们 查 
处 的 违规 行为 中 ,60% 都 是 来 自 大 数据 的 发 现 。” 

2015 年 ,安徽 省 实施 稽查 提前 介入 1 家 次 ,将 4 起 违法 违规 线索 移送 稽查 。 对 市 场 
主体 采取 行政 监管 措施 更 是 达到 了 9 次 ;开展 案件 调查 22 件 ( 含 辖区 案件 14 件 ) ,同比 增 
长 10% ,包括 证 监 会 法 网 专项 行动 A 类 案件 4 件 、 涉 外 案件 1 件 .与 公安 部 门 共同 查办 案 
件 1 件 . 移 送 公安 部 门 案件 1 件 。 

而 对 于 日 渐 火 热 的 贵金属 市 场 ,安徽 也 在 大 力 监管 ,去 年 共处 理 非法 贵金属 交易 等 违 
法 违规 证 券 期 货 活动 线索 12 起 ,其 中 ,5 起 移送 公安 或 工商 部 门 ;依法 审理 5 起 行政 处 罚 
案件 ,执行 罚没 款 140 万 元 。 

在 去 年 进行 的 47 家 次 现场 检查 中 ,安徽 的 范围 也 在 扩展 。 检 查 对 象 不 仅 包括 证 券 期 
货 经 营 机 构 ,投资 咨询 机 构 , 也 包括 了 风 生 水 起 但 又 风险 重重 的 互联 网 股权 众 筹 融 资 平 
台 , 对 1 名 从 业 人 员 、2 家 机 构 采 取 了 行政 监管 措施 。 

在 股市 频繁 波动 的 背景 之 下 ,安徽 针对 违规 减 持 行为 ,及 时 采取 监管 措施 ,并 移送 重 
查 部 门 查处 。 同 时 ,加 强 对 证 券 期 货 经 营 机 构 信用 业务 、 资 管 业务 等 核心 业务 ,以 及 上 市 
公司 大 股东 股权 质押 风险 的 监控 。 目 前 ,安徽 辖区 60 家 公司 制定 了 维护 股价 稳定 方案 ， 
31 家 公司 实施 了 增 持 , 增 持 总 额 约 13 亿 元 。 

2. 融资 " 倒 金 字 塔 ?结构 正在 改变 

对 于 企业 融资 问题 ,不 同 规模 的 企业 或 诈 有 着 不 同 的 选择 。 但 是 ,目前 安徽 融资 渠道 
不 断 拓宽 ,过 去 的 “ 倒 金 字 塔 ?结构 正在 发 生 着 变化 。 

2015 年 ,安徽 省 新 增 IPO 辅导 备案 企业 42 家 、 申 报 企业 9 家 ,8 家 公司 成 功 上 市 ,全 
省 境内 上 市 公司 达到 88 家 ,家 数 超过 湖北 , 跃 居中 部 第 一 、 全 国 第 九 ; 新 三 板 挂牌 企业 新 
增 117 家 ,达到 162 家 ,家 数 居 全 国 第 九 ;省 股权 托管 交易 中 心 新 增 挂牌 企业 488 家 .托管 
企业 611 家 ,总 数 分 别 达到 710 家 和 861 家 。 

2015 年 ,全 省 资本 市 场 完成 直接 融资 358. 32 亿 元 ,同比 增长 60% ,融资 额 与 我 省 历 
史 最 高 水 平 基本 持平 (2011 年 融资 358. 36 亿 元 ) 。 其 中 ,8 家 公司 IPO ,融资 40. 12 亿 元 ; 
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13 家 上 市 公司 非 公 开发 行 股份 ,融资 178. 21 亿 元 ;59 家 新 三 板 挂牌 公司 开展 84 次 定向 
发 行 ,融资 20. 41 亿 元 ;10 家 企业 发 行 公司 债券 ,融资 91 亿 元 ;5 项 资产 支持 证 券 成 功 发 
行 ,融资 28. 58 亿 元 。 

9.3.2 “大 数据 ”分 析 挖 出 基金 “老鼠 仓 ”的 启示 


随 着 基金 “老鼠 仓 " 不 断 被 掀 出 “大 数据 ?监管 这 个 字眼 也 逐渐 被 投资 者 所 熟悉 。 靠 
“大 数据 ?这 个 利器 ,监管 机 构 对 内 幕 交易 的 稽查 力度 越 来 越 大 ,今年 以 来 基金 经 理 变更 数 
量 和 比例 也 明显 高 过 往年 。 

将 “大 数据 ”分 析 挖 掘 应 用 到 证 券 基 金 监管 中 绝对 是 方向 ,绝对 是 远 远 超越 传统 监管 
方式 的 一 把 高 科技 监管 利器 。 对 于 监管 部 门 利用 “大 数据 ”利器 ,在 挖 出 基金 老鼠 仓 上 小 
试 牛刀 却 大 获 全 胜 的 做 法 给 予 充 分 肯定 。 

证 券 期 货 基金 市 场 无 论 是 投资 者 开户 ,还 是 交易 ;无 论 是 交易 场所 ,还 是 投资 分 析 ; 无 
论 是 股票 期 货 基金 托管 ,还 是 交易 资金 银行 第 三 方 存 管 , 所 有 交易 活动 完全 是 网 络 电子 化 
的 。 任 何 投资 者 只 要 发 生 交 易 活 动 ,都 会 在 网 络 上 留 下 足迹 ,并 且 , 这 种 足迹 可 以 追查 寻 
更 到 每 一 个 具体 的 投资 者 “本 人 ”。 这 就 为 “大 数据 "在 资本 市 场 的 任何 运用 奠定 了 基础 ， 
“大 数据 "可 以 在 资本 市 场 发 挥 几乎 是 无 所 不 能 的 作用 ,包括 挖 出 基金 老鼠 仓 。 

这 与 传统 监管 手段 完全 处 于 被 动 地 位 相 比 较 , 简 直 是 一 个 质 的 变化 和 大 飞跃 。 主 要 
区 别 是 传统 监管 方式 是 被 动 的 ,效率 极 低 , 隔 墙 扔 砖头 、 砸 着 谁 是 谁 , 逮 住 的 是 个 别 的 .是 
虾米 , 放 走 的 是 大 多 数 、 是 大 鱼 。 传 统 监管 方式 主要 有 两 种 : 一 是 监管 部 门人 员 突然 歼 
击 , 出 现在 证 券 基 金 公司 ,让 所 有 人 员 立 即 离开 ,然后 在 证 券 基 金工 作 人 员 电 脑 中 现场 检 
查 发 现 线索 。 二 是 依靠 内 部 举报 。 其 中 有 些 老 鼠 仓 是 基金 经 理 的 “小 三 ?举报 ,还 有 配偶 
因为 离婚 财产 分 配 不 均 举 报 、 办 公 室 斗争 的 同事 举报 等 。 

“大 数据 "分析 挖 出 基金 老鼠 仓 ,监管 方式 是 主动 的 ,全 面 的 、 高 效 的 ,不 会 放 过 任何 一 
个 老鼠 仓 。“ 大 数据 "用 来 挖 老鼠 仓 , 主 要 是 基于 沪 深 两 大 交易 所 每 天 的 海量 数据 ,根据 老 
鼠 仓 的 主要 特征 ,筛选 出 若干 种 最 具 老 鼠 仓 特征 的 数据 指标 ,在 沪 深 两 大 交易 所 海量 数据 
平台 上 无 时 无 刻 进行 抓 取 。 正 如 “大 数据 ”的 鼻祖 美国 第 二 大 百货 公司 一 一 塔 吉 特 为 了 获 
取 孕 妇 信息 而 最 早 投放 广告 抢夺 孕妇 客户 一 样 。 根 据 怀孕 者 的 消费 习惯 筛选 了 20 多 种 
产品 ,通过 “大 数据 ? 抓 取 分 析 ,最 终 截获 客户 ,获得 成 功 。 从 现 有 的 公开 资料 来 看 ,监管 机 
构 的 “大 数据 ?主要 是 沪 深 两 大 交易 所 各 自 掌握 的 监测 系统 ,主要 分 为 对 内 部 交易 的 监察 、 
对 重大 事项 交易 的 监察 ,联动 监察 机 制 和 实时 监察 机 制 四 个 方面 。 这 套 监控 系统 有 着 所 
谓 的 “大 数据 ”分 析 能 力 , 并 有 实时 报警 等 功能 ,主要 是 对 盘 中 的 异常 表现 进行 跟踪 和 
判断 。 

这 是 传统 抓 老 鼠 仓 方式 不 可 比拟 的 。 传 统 监管 方式 就 像 用 一 个 鱼 钩 垂钓 一 样 ,是 被 
动 地 坐等 鱼 儿 上 钩 。 而 借助 “大 数据 ?挖掘 分 析 监管 方式 ,就 像 向 大 海中 撒 了 一 张大 网 ,一 
旦 有 异常 情况 就 可 以 自动 收 网 。 

监管 部 门 必须 转变 监管 思路 。 过 去 那 种 运动 式 ,集中 行动 式 的 人 海战 术 监管 方式 , 必 
须 转变 为 互联 网 思维 、 互 联网 金融 、 大 数据 模式 的 高 效 主动 监管 方式 。 有 报道 说 ,证 监 会 
正在 扩大 稽查 总 队 的 阵容 ,人 数 或 将 在 300 人 的 基础 上 再 扩编 300 人 。 动 不 动 就 增加 人 
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员 、 采 取 人 海战 术 的 做 法 还 是 传统 思维 在 作怪 。 阿 里 小 贷 完 全 借助 于 大 数据 挖掘 ,只 有 
300 多 个 员工 ,就 给 70 万 家 小 微 企 业 放 贷款 ,累计 放贷 已 经 超过 1000 多 亿 元 。 这 是 传统 
银行 不 可 想象 的 。 拼 的 是 高 效 高 科技 手段 的 大 数据 ,而 不 是 人 海战 术 。 

随 着 互联 网 的 普及 特别 是 移动 互联 网 的 迅猛 发 展 , 所 有 社会 经 济 文化 等 活动 都 将 互 
联网 化 ,都 将 由 线 下 搬 上 网 络 。 这 就 意味 着 无 论 是 自然 人 \ 社 会 人 还 是 法 人 的 所 有 足迹 都 
将 广泛 , 越 来 越 多 地 在 网 络 上 留 下 印记 和 足迹 。 通 过 “大 数据 ?对 这 些 足迹 进行 挖掘 ,将 会 
挖 出 一 座 大 金 矿 。 

“大 数据 ” 挖 出 最 大 老鼠 仓 启示 我 们 ,“ 大 数据 "不仅 具有 商业 挖掘 价值 ,而 且 也 是 监管 
经 济 金 融 活动 甚至 是 反腐 败 的 利器 。 官员 及 其 家 属 亲 朋 好 友 的 通信 经济 活动 ,财富 存 
款 ,消费 社会 足迹 等 都 可 以 通过 “大 数据 ”挖掘 出 来 。 比 如 ,银行 .证券 .基金 等 系统 已 经 比 
较 完善 ,未 来 不 动产 也 将 全 国联 网 ,这 就 将 使 得 官员 以 及 家 属 亲 朋 好 友 的 一 切 家 庭 个 人 财 
务 活动 都 将 在 网 络 上 通过 大 数据 分 析 可 以 挖掘 出 来 ,一 旦 发 生 异 常 , 就 将 成 为 发 现 腐败 的 
重要 线索 。 

总 之 ,“ 大 数据 ” 挖 出 最 大 老鼠 仓 启 示 我 们 ,“ 大 数据 ”应 该 尽快 上 升 到 国家 战略 ,作为 
重大 科技 项 目 全 力 推 进 。 不 仅仅 是 为 了 “大 数据 ”科技 和 经 济 , 也 是 反腐 败 的 利器 ,具有 重 
要 的 政治 价值 。 


9.4 金融 行业 应 用 


9.4.1 汽车 金融 公司 怎么 实现 大 数据 管理 

1. 汽车 金融 与 大 数据 的 关系 

在 谈 汽车 金融 与 大 数据 的 关系 前 ,觉得 有 必要 对 汽车 金融 进行 一 个 “菜鸟 ”解读 ,汽车 
好 懂 , 但 是 对 于 金融 的 理解 ,可 以 用 三 句 话 做 最 好 的 解读 : 

(1) 为 有 钱 人 理财 ,为 缺 钱 人 融资 (金融 是 有 资金 流动 的 行为 ) ; 

(2)“ 信 用 “杠杆 “风险 ”( 三 者 缺 一 不 可 ,相辅相成 ); 

(3) 金融 如 果 不 为 实体 经 济 服务 ,就 是 毫 无 意义 的 泡沫 (金融 依托 于 实体 经 济 ,也 可 
能 产生 泡沫 ) 。 

无 论 是 何 种 金融 行为 , 均 是 建立 在 信用 基础 上 的 杠杆 收益 与 风险 的 均衡 ,所 以 金融 存 
在 的 基础 是 信用 ,汽车 金融 也 不 例外 ,就 我 国 目前 的 征 信 法 制 建设 水 平 而 言 ,对 客户 的 信 
用 评价 越 准 确 , 越 容易 把 握 杠杆 与 风险 的 均衡 ,就 如 同 自己 借 十 万 给 别人 ,对 别人 的 收入 、 
背景 越 了 解 , 同 等 收益 的 条 件 下 对 风险 的 判断 更 有 把 握 , 那 么 对 于 借款 人 的 信息 了 解 程度 
就 变 得 异常 关键 。 

然而 个 人 的 信用 评估 和 实现 气象 预测 有 非常 类 似 之 处 ,一 个 人 或 者 群体 的 信用 好 坏 
取决 于 很 多 的 变量 ,而 且 信用 本 身 不 是 静态 的 ,而 是 一 个 动态 的 行为 特征 的 体现 一 一 资 
产 , 收 入 ,消费 ,个 性 .习惯 ,社交 网 络 等 等 都 会 对 信用 产生 影响 。 在 汽车 金融 行业 ,由 于 面 
对 数量 庞大 的 客户 群体 ,如 何 从 大 量 .多样 快速 变化 , 低 价值 密度 的 信息 中 通过 大 数据 对 
个 体 大 量 信用 行为 进行 收集 整理 分析, 把 这 些 克 合 在 一 起 时 ,使 得 人 的 信用 立体 化 ,从 
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而 甄别 出 价值 客户 ,设计 不 同 的 金融 产品 获取 最 大 化 的 收益 ,就 变 成 了 汽车 金融 行业 发 展 
的 首要 任务 。 

2. 汽车 金融 公司 怎么 实现 大 数据 管理 

目前 个 人 汽车 消费 贷款 方式 有 银行 汽车 金融 公司 、 整 车 厂 财务 公司 ,信用 卡 分 期 购 
车 和 汽车 融资 租赁 五 种 ,由 于 操作 主体 不 同 ,对 信息 的 需求 以 及 积累 的 基础 不 一 致 ,各 个 
单位 在 实现 大 数据 管理 过 程 中 可 能 存在 各 种 差异 ,传统 的 金融 业者 由 长 期 系统 的 金融 服 
务 积累 的 数据 完全 可 以 在 确保 用 户 隐私 和 商业 机 密 的 前 提 下 ,与 各 行 各 业 通 过 数据 间 的 
共享 交换 和 买卖 以 生成 大 数据 ,在 此 之 上 探索 全 新 的 产品 和 服务 ,而 对 于 一 些 依托 于 厂 
家 或 存在 行业 局 限 的 汽车 金融 公司 而 言 ,如 何 规划 并 设计 大 数据 管理 之 路 ,目前 业内 并 无 
成 熟 经 验 可 以 借鉴 ,以 下 仅 为 工作 思考 中 形成 的 几 个 观点 , 聊 以 抛砖引玉 。 

1)“ 外 部 大 数据 十 企业 大 数据 ?是 必 有 经 之 路 ,存量 客户 的 信息 挖掘 是 一 笔 宝藏 

目前 行业 应 用 的 最 多 的 是 人 行 的 征 信 数 据 , 而 随 着 这 几 年 的 发 展 ,市 面 上 已 经 出 现 了 
各 种 信息 咨询 公司 ,有 的 可 以 提供 工商 数据 ,有 的 可 以 提供 银联 消费 数据 ,有 的 可 以 提供 
小 额 贷款 信用 数据 ,所 有 这 些 ,都 是 对 以 人 行为 中 心 的 外 部 征 信 大 数据 的 补充 ,这 部 分 数 
据 相 对 稳定 ,获取 的 渠道 也 比较 透明 ,然而 对 于 部 分 行业 诸如 商用 车 行业 而 言 , 由 于 客户 
购买 车 辆 属于 生产 资料 ,行业 经 验 的 积累 对 于 客户 的 盘 利 水 平 有 明显 的 影响 效果 ,同时 生 
产 资料 都 有 淘汰 更 新 的 自然 生命 周期 ,而 动 辑 几 万 ,十 几 万 的 客户 数量 ,已 经 把 相应 行业 
的 朋友 圈 客 户 基本 固定 。 这 样 一 来 ,对 于 如 何 发 气 重 复 购买 的 客户 ,实现 价值 营销 具有 重 
要 的 意义 。 

2) 获取 动态 信息 的 渠道 很 关键 ,硬件 与 软件 都 重要 

为 了 实时 获取 客户 信息 ,防范 客户 风险 ,部 分 厂商 在 出 厂 的 时 候 就 预 装 了 GPS 设备 ， 
除去 基本 定位 导航 功能 外 , 越 来 越 多 的 厂商 开始 拓展 其 他 功能 ,比如 回 传 里 程 数 ,油耗 、 工 
况 ,实现 远程 诊断 等 等 ,逐步 开始 搭建 自己 品牌 的 车 联网 平台 ,但 是 就 目前 的 实际 情况 来 
看 ,就 算 应 用 得 比较 好 的 商用 车 领域 ,各 大 厂商 的 软件 系统 、 硬 件 设施 等 仍然 存在 数据 质 
量 差 、 回 传 效率 低 ,不 防 拆 等 缺陷 ,出 现 各 大 车 联网 规划 都 很 丰满 ,但 是 现实 却 很 骨 感 的 鸠 
炊 局 面 。 

当然 ,行业 内 也 有 一 些 很 具有 前 脆性 的 公司 ,已 经 悄悄 地 开展 了 基于 特定 行业 平台 的 
大 数据 平台 建设 工作 ,通过 平台 的 作用 ,整合 上 下 游资 源 ,把 与 汽车 相关 的 保养 ,维修 , 换 
件 、 加 油 、 保 险 甚至 餐饮 整合 至 特定 平台 ,通过 以 人 为 中 心 的 数据 库 建立 ,稳定 客户 资源 ， 
并 根据 客户 在 平台 上 的 大 数据 条 件 , 为 客户 提供 金融 贷款 等 服务 。 

3) 大 数据 建设 可 以 从 特定 行业 或 特定 区 域 开始 ,再 实现 跨行 业 跨 区 域 的 大 数据 整合 

前 面 说 过 ,大 数据 具有 低 价 值 密度 的 特性 ,在 大 数据 建设 的 初期 ,应 对 数据 的 使 用 维 
度 进行 规划 ,重点 收集 哪 几 个 维度 的 信息 ,并 把 信息 根据 性 质 划分 重要 程度 ,实现 外 部 信 
息 和 内 部 信息 相 结合 , 必 备 信息 和 补充 信息 相交 错 , 静 态 信息 和 动态 信息 相辅相成 ,然而 
中 国 本 来 就 是 一 个 人 口 大 国 , 如 若 全 面 铺 开 ,相信 暂时 没有 哪个 企业 能 做 到 大 而 全 的 信息 
收集 ,但 是 在 特定 区 域 ,特定 行业 ,客户 的 相关 信息 相对 固定 ,收集 渠道 相对 稳定 ,这 样 对 
于 特定 领域 的 数据 信息 整合 提供 了 可 操作 性 ,一 旦 细 分 行业 细 分 客户 的 大 数据 成 型 , 随 着 





下 


规模 扩大 , 即 可 以 与 相关 行业 实现 数据 共享 或 交换 ,在 信息 得 到 不 断 挖掘 之 后 ,可 以 想象 ， 
在 未 来 的 某 一 天 ,行业 内 可 能 出 现 1 到 2 家 具备 垄断 性 质 的 大 数据 平台 。 

4) 信息 安全 的 敏感 性 对 大 数据 发 展 提出 更 规范 化 的 管理 要 求 

2013 年 “棱镜 门 ”事件 暴露 了 美国 情报 机 关 正 在 利用 大 数据 技术 ,对 全 球 通信 系统 和 
互联 网 实行 全 面 的 实时 监控 ,进行 大 数据 采集 、 挖 气 \ 分 析 、 关 联 ,引发 了 世界 信息 安全 和 危 
机 。 在 全 球 规模 庞大 的 信息 泄露 关联 产业 ,一 批 黑客 长 期 从 事 截 获 并 贩卖 大 众 信息 的 工 
作 ,而 接 货 者 则 通过 计算 机 自动 比 对 ,将 买 来 的 账号 密码 等 信息 在 各 大 金融 机 构 网 站 、 电 
商 网 站 进行 “ 撞 库 ”, 成 功率 通常 可 以 达到 5%% 一 10% ,成 功 * 撞 库 ? 的 信息 将 高 价 卖 出 ,以 
便 下 个 团队 用 以 挪 走 消费 者 资金 非法 支付 和 欺诈 勒索 等 等 。 大 数据 时 代 如 何 兼 顾 安全 
与 自由 、 商 业 利益 与 个 人 隐私 ,从 而 推动 科技 的 进步 ,实现 可 持续 发 展 ,是 每 个 人 都 应 该 关 
心 的 话题 。 


9.4.2 大 数据 决定 互联 网 金融 未 来 


互联 网 金融 不 是 互联 网 和 金融 的 简单 琶 加 ,更 深层 次 的 变化 是 : 一 些 基 于 互联 网 应 
用 的 特有 技术 ,推动 了 新 的 商业 模式 、 产 品 、 服 务 、 功 能 在 金融 业内 出 现 ,金融 体系 随 之 经 
历 着 新 的 变革 。 大 数据 就 是 其 中 的 典型 代表 , 它 也 被 视 为 推动 互联 网 金融 发 展 的 重要 驱 
动力 之 一 。 

麦肯锡 全 球 研究 院 在 其 发 布 的 (大 数据 : 创新 、 竞 争 和 生产 力 的 下 一 个 新 领域 ) 报 告 
中 指出 :“ 大 数据 之 “大 "通常 是 指数 据 量 大 到 超过 传统 数据 处 理工 具 的 处 理 能 力 , 是 相对 
和 动态 的 概念 。 此 外 ,大 数据 又 被 引申 为 解决 问题 的 方法 , 即 通 过 收集 、 分 析 海 量 数据 获 
得 有 价值 信息 ,并 通过 实验 .算法 和 模型 ,从 而 发 现 规律 ,收集 有 价值 的 见解 和 帮助 形成 新 
的 商业 模式 。” 

金融 业 是 大 数据 的 重要 产生 者 ,交易 .报价 .业绩 报告 消费 者 研究 报告 ,官方 统计 数 
据 公报 .调查 新闻 报 道 无 一 不 是 数据 来 源 。 但 反 过 来 ,大 数据 对 于 互联 网 金融 发 展 的 助 
推 作 用 也 逐渐 浮现 。 

1. 目标 用 户 拼 精 准 

大 数据 对 于 互联 网 金融 的 第 一 个 助 推 作用 在 于 寻找 合适 的 目标 用 户 ,实现 精准 营销 。 

互联 网 金融 领域 的 新 创 企 业 或 做 贷款 ,或 卖 产品 ,凭借 高 额 收益 率 、 手 续费 优惠 ,吸引 
用 户 选择 自己 。 然 而 ,在 越 来 越 多 同类 企业 吹 响 混战 号 角 的 同时 ,互联 网 金融 企业 也 不 得 
不 面 对 来 自 同行 业 的 竞争 。 盲目 扩张 ,产品 单一 ,使 得 竞争 力 不 强 的 互联 网 金融 企业 ,由 
于 不 能 保证 稳定 流量 .无 法 留 住 客户 而 倒闭 ,成 为 行业 的 “炮灰 "。 上 海 永利 宝 金融 信息 服 
务 有 限 公 司 CEO 余 刚 分 享 了 一 组 数据 ,以 互联 网 金融 领域 的 P2P 业务 为 例 , 截 止 到 
2013 年 底 , 中 国有 450 家 P2P 公司 ,最 短命 的 P2P 企业 出 现在 海南 省 ,创立 2 天 即 倒闭 。 

在 巨大 市 场 压力 面前 ,许多 互联 网 金融 企业 都 已 意识 到 自身 产品 的 营销 策略 很 大 程 
度 上 影响 了 企业 的 生存 与 发 展 。 欲 在 竞争 激烈 的 市 场 中 占有 一 席 之 地 ,互联 网 金融 企业 
需要 更 精准 地 定位 产品 ,并 推送 给 目标 人 群 。 正 如 德 邦 证 券 董 事 长 姚 文 平 在 其 (互联 网 金 
融 ) 一 书 中 指出 的 :“ 与 其 一 味 地 昔 思 如 何 “ 做 得 更 好 ,不 如 考虑 如 何 “ 做 得 不 同 '”。 
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谁 是 潜在 的 购买 者 ? 如 何 找到 他 们 ? 并 让 他 们 产生 兴趣 ? 

精准 营销 的 实现 程度 是 互联 网 金融 企业 存活 与 崛起 的 关键 所 在 ,这 个 领域 虽然 未 达 
到 成 熟 的 发 展 状态 ,但 确实 已 经 有 了 一 些 有 参考 价值 的 营销 案例 。 例 如 ,梧桐 理财 网 推出 
了 2 万 元 起 点 的 “梧桐 宝 ”, 是 一 款 8%~10% 预 期 收益 的 互联 网 理财 产品 ,其 目标 客户 是 
能 够 承担 “两 万 元 起 投 ” 的 中 产 阶级 ;速溶 网 推出 的 “速溶 360” 旨 在 为 在 校 大 学 生 及 毕业 
生 提供 金融 服务 …… 

大 数据 在 为 这 些 互联 网 金融 企业 找到 自己 的 目标 客户 ,并 解决 精准 营销 的 问题 上 发 
挥 了 重要 作用 。 大 数据 通过 动态 定向 技术 查看 互联 网 用 户 近 期 浏览 过 的 理财 网 站 ,搜索 
过 的 关键 词 ,通过 浏览 数据 建立 用 户 模型 ,进行 产品 实时 推荐 的 优化 投放 ,直击 用 户 所 需 。 

2.“ 芝 麻 信 用 ” 控 风险 

其 次 ,大 数据 在 加 强风 险 可 控 性 ,支持 精细 化 管理 方面 助 推 了 互联 网 金融 ,尤其 是 信 
贷 服务 的 发 展 。 

通过 分 析 大 量 的 网 络 交易 及 行为 数据 ,可 对 用 户 进行 信用 评估 ,这 些 信用 评估 可 以 帮 
助 互联 网 金融 企业 对 用 户 的 还 款 意愿 及 还 款 能 力 做 出 结论 ,继而 为 用 户 提 供 快 速 授信 及 
现金 分 期 服务 。 

事实 上 一 个 人 或 一 个 群体 的 信用 好 坏 取 决 于 诸多 变量 ,如 收入 、 资 产 , 个 性 习惯 等 ， 
且 呈 动态 变化 状态 。 可 以 说 数据 在 个 人 信用 体系 中 体现 为 “芝麻 信用 ”, 它 便于 解决 陌生 
人 之 间 以 及 商业 交易 场景 中 最 基本 的 身份 可 信 性 问题 ,以 及 帮助 互联 网 金融 产品 和 服务 
的 提供 者 识别 风险 与 危机 。 这 些 数据 广泛 来 源 于 网 上 银行 、 电 商 网 站 、 社 交 网 络 .招聘 网 、 
婚介 网 ,公积金 社保 网 站 ,交通 运输 网 站 搜索 引擎 ,最终 聚 合 形成 个 人 身份 认证 、 工 作 及 
教育 背景 认证 、 软 信息 (包括 消费 习惯 兴趣 爱好 、 影 响 力 .社交 网 络 ) 等 维度 的 信息 。 

支付 宝 的 大 数据 服务 部 负责 人 李 颖 狗 以 支付 宝 的 用 户 数据 举例 ,目前 支付 宝 3 亿 名 
实名 认证 用 户 覆 盖 了 近 一 半 的 中 国 网 民 , 他 们 的 上 网 足迹 提供 了 涵盖 购物 ,支付 、 投 资 . 生 
活 、 公 益 等 上 百 种 场景 数据 ,每 天 产生 的 数据 相当 于 5000 个 国家 图 书馆 的 信息 量 。 当 人 
们 在 淘宝 .天 猫 等 电子 商务 平台 上 进行 消费 时 就 会 留 下 自己 的 信用 数据 , 当 这 些 信息 积累 
到 一 定 程度 ,再 结合 交易 平台 上 用 户 的 个 人 信息 .口碑 评价 等 进行 量化 处 理 后 ,就 能 形成 
用 户 的 行为 轨迹 ,这 对 还 原 每 一 个 人 的 信用 有 相当 大 的 作用 。 同 时 ,通过 交叉 检验 技术 ， 
辅 以 第 三 方 确认 客户 信息 的 真实 性 ,以 及 开发 网 络 人 际 疏 虫 系统 ,突破 地 理 距 离 的 限制 ， 
可 以 更 全 面 .更 客观 地 得 到 风险 评估 结论 ,从 而 加 强 互联 网 金融 服务 风险 的 可 审 性 与 管理 
力度 。 

毫 无 疑问 ,大 数据 将 在 互联 网 金融 将 大 展 身手 ,但 大 数据 只 是 分 析 工具 ,是 人 类 设计 
的 产物 ,不 应 过 分 迷信 。 以 P2P 借贷 行业 为 例 , 目 前 借贷 业务 不 仅 需 要 网 络 审核 ,更 需要 
线 下 审核 ,信贷 员 的 从 业经 验 和 责任 心 是 信贷 安全 的 重要 保障 。 男 外 ,除了 个 别 企 业 ,大 
部 分 互联 网 金融 企业 目前 的 用 户 规模 和 交易 额 都 不 大 ,缺乏 大 数据 基础 ,也 无 力 承担 所 需 
的 基础 设施 和 处 理 成 本 。 在 互联 网 金融 的 发 展 过 程 中 ,如 何 发 挥 大 数据 的 优势 ,避免 其 劣 
势 ,将 决定 互联 网 金融 的 未 来 。 


3. 六 种 可 用 于 互联 网 金融 风险 控制 ( 征 信 ) 的 大 数据 来 源 
近年 来 ,以 第 三 方 支付 .P2P 平 台 、 众 筹 为 代表 的 互联 网 金融 模式 引起 了 人 们 的 广泛 


人 


关注 ,该 模式 大 量 运 用 了 搜索 引擎 ,大 数据 .社交 网 络 和 云 计 算 等 技术 ,有 效 降 低 了 市 场 信 
息 不 对 称 程度 ,大 幅 节 省 了 信息 处 理 的 成 本 ,让 支付 结算 变 得 更 便捷 ,达到 了 同 资本 市 场 
直接 融资 .银行 间接 融资 一 样 高 的 资源 配置 效率 。 但 由 于 我 国 互联 网 金融 出 现 的 时 间 短 ， 
发 展 快 ,目前 还 没有 形成 完善 的 监控 机 制 和 信用 体系 ,一 旦 现 有 互联 网 金融 体系 失控 ,将 
存在 着 巨大 的 风险 。 

首先 是 信用 风险 大 。 目 前 我 国信 用 体系 尚 不 完善 ,互联 网 金融 的 相关 法 律 还 有 待 配 
套 , 互 联网 金融 违约 成 本 较 低 ,容易 诱发 恶意 骗 贷 . 卷 款 跑 路 等 风险 问题 。 特 别 是 P2P 网 
贷 平 台 由 于 准 和 门槛 低 和 缺乏 监管 ,成 为 不 法 分 子 从事 非 法 集资 和 诈骗 等 犯罪 活动 的 
温床 。 

其 次 是 网 络 安全 风险 大 。 我 国 互联 网 安全 问题 突出 ,网 络 金融 犯罪 问题 不 容 忽视 。 
一 旦 遭遇 黑客 攻击 ,互联 网 金融 的 正常 运作 会 受到 影响 。 

互联 网 金融 企业 通过 获得 多 渠道 的 大 数据 原料 ,利用 数学 运算 和 统计 学 的 模型 进行 
分 析 , 从 而 评估 出 借款 者 的 信用 风险 ,典型 的 企业 是 美国 的 Zest Finance。 其 通过 分 析 模 
型 对 每 位 信贷 申请 人 的 上 万 条 原始 信息 数据 进行 分 析 , 并 得 出 超过 数 万 个 可 对 其 行为 做 
出 测量 的 指标 ,而 这 一 过 程 在 5 秒 钟 内 就 能 全 部 完成 。 在 进行 数据 处 理 之 前 ,对 业务 的 理 
解 、 对 数据 的 理解 非常 重要 ,这 决定 了 要 选取 哪些 数据 原料 进行 数据 挖掘 ,进入 "数据 工 
厂 ” 之 前 的 工作 量 通 常 要 占 到 整个 过 程 的 60% 以 上 。 

目前 ,可 被 用 于 助力 互联 网 金融 风险 控制 的 数据 存在 多 个 来 源 。 

一 是 电 商 大 数据 ,以 阿里 巴巴 为 例 , 它 已 利用 电 商 大 数据 建立 了 相对 完善 的 风 控 数据 
挖掘 系统 ,并 通过 旗下 阿里 巴巴 .淘宝 .天 猫 ,支付 宝 等 积累 的 大 量 交易 数据 作为 基本 原 
料 ,将 数值 输入 网 络 行为 评分 模型 ,进行 信用 评级 。 

二 是 信用 卡 类 大 数据 ,此 类 大 数据 以 信用 卡 申 请 年 份 . 通 过 与 否 .授信 额度 .卡片 种 
类 、 还 款 金 额 等 都 作为 信用 评级 的 参考 数据 。 国 内 典型 企业 是 成 立 于 2005 年 的 “我 爱 
卡 ”, 它 利用 自身 积累 的 数据 和 流量 优势 ,结合 国外 引入 的 FICO( 费 埃 哲 ) 风 控 模型 ,从 事 
互联 网 金融 小 额 信 贷 业务 。 

三 是 社交 网 站 大 数据 ,典型 企业 为 美国 的 Lending Club, 它 基于 社交 平台 上 的 应 用 搭 
建 借贷 双方 平台 ,并 利用 社交 网 络 关系 数据 和 朋友 之 间 的 相互 信任 聚合 人 气 ,平台 上 的 借 
款 人 被 分 为 若干 信用 等 级 ,但 是 却 不 必 公布 自己 的 信用 历史 。 

四 是 小 额 贷款 类 大 数据 ,目前 可 以 充分 利用 的 小 贷 风 控 数 据 包 括 信贷 额度 .违约 记录 
等 。 由 于 单一 企业 信贷 数据 的 数量 级 较 低 、 地 域 性 较 强 ,业内 共享 数据 的 模式 已 正 逐 步 被 
认可 。 

五 是 第 三 方 支付 大 数据 ,支付 是 互联 网 金融 行业 的 资金 人 口 和 结算 通道 ,此 类 平台 可 
基于 用 户 消费 数据 做 信用 分 析 , 支 付 方向 、 月 支付 额度 、 消 费 品牌 都 可 以 作为 信用 评级 
数据 。 

六 是 生活 服务 类 网 站 大 数据 ,包括 水 、 电 、 煤 气 、 物 业 费 交纳 等 ,此 类 数据 客观 真实 地 
反映 了 个 人 基本 信息 ,是 信用 评级 中 一 种 重要 的 数据 类 型 。 
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9.4.3 移动 大 数据 在 互联 网 金融 反 欺 诈 领域 的 应 用 


根据 (2015 中 国 移动 互联 网 发 展 指数 报告 》, 中 国共 拥有 12. 4 亿 台 移动 端 设备 ,其 中 
移动 智能 手机 的 保有 量 为 9 亿 , 每 个 移动 互联 网 用 户 拥有 大 概 1. 35 部 智能 手机 。 移 动 互 
联网 用 户 中 80 后 .90 后、00 后 占 比 超过 了 72% ,成 为 移动 互联 网 主要 用 户 。 平 均 每 部 手 
机 装载 了 41 款 应 用 ,平均 每 天 打开 25 款 应 用 ,相对 去 年 有 较 大 的 提升 。 

移动 互联 网 正在 影响 着 人 们 的 生活 ,移动 设备 端 产 生 的 数据 也 蕴藏 着 巨大 的 商业 价 
值 。2014 年 美国 移动 设备 位 置信 息 产生 的 市 场 价值 大 概 为 1000 亿美 元 ,2015 年 中 国 移 
动 大 数据 的 市 场 刚刚 开始 。 

1. 移动 大 数据 的 商业 价值 


在 PC 互联 网 时 代 , 不 管用 户 是 否 喜 欢 BAT, 其 网 站 仍然 在 那里 。 但 是 在 移动 互联 
网 时 代 , 如 果 一 个 用 户 不 喜欢 这 个 应 用 ,就 可 以 在 2 秒 钟 内 删 掉 这 个 APP, 彻 底 中 断 和 
它 的 连接 ,无 论 其 是 不 是 BAT。 在 移动 互联 网 时 代 , 选 择 权 完 转向 用 户 , 消 费 者 将 成 为 
数字 世界 的 中 心 。 过 去 以 品牌 为 中 心 的 消费 形式 ,将 会 转变 为 以 消费 者 为 中 心 的 消费 
形式 。 

智能 手机 上 安装 的 APP 和 APP 使 用 的 频率 ,可 以 代表 用 户 的 喜好 。 例 如 喜欢 理财 
的 客户 ,其 智能 手机 上 一 定 会 安装 理财 APP, 并 经 常 使 用 ; 母 婴 人 群 也 会 安装 和 母 婴 相关 
的 APP, 频 繁 使 用 ; 商旅 人 群 使 用 商旅 APP 的 频率 一 定 会 高 于 其 他 移动 用 户 。 未 来 
80 后 .90 后 将 成 为 社会 的 主要 消费 人 群 ,他 们 的 消费 行为 将 会 以 移动 互联 网 为 主 , APP 
的 安装 和 活跃 数据 更 加 能 够 反映 出 年 轻 人 的 消费 偏好 。 

智能 手机 设备 的 位 置信 息 代表 了 消费 者 的 位 置 轨迹 ,通过 这 个 轨迹 可 以 推测 出 消费 
者 的 消费 偏好 和 习惯 。 在 美国 ,移动 设备 位 置信 息 的 商业 化 较为 成 熟 ,GPS 数据 正在 帮 
助 很 多 企业 进行 数据 变现 ,提高 社会 运营 效率 。 在 中 国 ,移动 大 数据 的 商业 应 用 刚刚 开 
始 ,并 且 在 房地产 业 、 零 售 行业 ,金融 行业 ,市 场 分 析 等 领域 取得 了 一 些 成 果 。 

特别 在 互联 网 金融 领域 的 应 用 ,移动 大 数据 正在 帮助 互联 网 金融 企业 实施 反 欺诈 , 降 
低 恶 意 诈骗 给 互联 网 金融 企业 带 来 的 损失 。 

2. 恶意 欺诈 成 为 互联 网 金融 的 主要 风险 

近 几 年 ,互联 网 金融 爆发 式 发 展 ,预计 2015 年 P2P 的 交易 总 额 将 会 超过 1 万 亿 , 将 
成 为 具有 影响 力 的 产业 。 最 近 半 年 ,大 量 的 金融 行业 专业 人 士 和 传统 产业 资本 进入 到 互 
联网 金融 领域 ,表明 这 个 产业 的 生命 力 正在 不 断 增强 ,有 的 P2P 企业 的 年 交易 额 已 经 突 
破 百 亿 元 ,有 的 P2P 企业 估 值 也 超过 了 15 亿美 元 。 

但 是 在 P2P 行业 ,其 面 对 的 风险 也 在 加 大 ,除了 传统 的 信用 风险 ,其 外 部 欺诈 风险 正 
在 成 为 一 个 主要 风险 。 有 的 P2P 公司 统计 过 , 带 给 P2P 公司 的 最 大 外 部 风险 不 是 借款 人 
的 坏账 ,而 是 犯罪 集团 的 恶意 欺诈 。 网 络 犯 罪 正在 成 为 P2P 公司 面临 的 主要 威胁 之 一 ， 
甚至 在 一 些 P2P 公司 ,恶意 欺诈 产生 的 损失 占 整 体 坏账 的 60%。 很 多 P2P 公司 将 主要 
精力 放 在 如 何 预防 恶意 方面 。 高 风险 客户 识别 和 黑 名 单 成 为 预防 恶意 欺诈 的 主要 手段 。 
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3. 移动 大 数据 在 反 欺 诈 领 域 的 应 用 


移动 大 数据 中 的 位 置信 息 代表 了 用 户 轨迹 ,商业 应 用 较 早 。2014 年 ,美国 移动 设备 
位 置信 息 的 市 场 规 模 接 近 1000 亿美 金 。 但 中 国 移动 设备 位 置信 息 的 商业 应 用 才刚 刚 
开始 。 

从 技术 上 讲 , 定 位 移动 设备 的 位 置 有 三 种 方式 : 第 一 种 是 通过 运营 商 的 三 个 基站 定 
位 ,其 误差 大 概 在 200m; 第 二 种 是 通过 手机 APP 中 的 GPS 位 置信 息 定位 ,大 概 误差 为 
50m; 第 三 种 是 通过 WiFi 定位 ,误差 大 概 在 3 一 5m。 在 移动 设备 位 置信 息 商业 应 用 中 ,三 
种 定位 方式 都 被 应 用 ,室内 以 WiFi 定位 为 主 ,室外 以 GPS 定位 为 主 。 移 动 大 数据 在 反 欺 
诈 领域 具有 以 下 应 用 场景 。 

1) 用 户 居住 地 的 辨别 

线 上 的 欺诈 行为 具有 较 高 的 隐蔽 性 ,很 难 识别 和 侦 测 。P2P 贷款 用 户 很 大 一 部 分 来 
源 于 线 上 ,因此 恶意 欺诈 事件 发 生 在 线 上 的 风险 远 远 大 于 线 下 。 中 国 的 很 多 数据 处 于 封 
闭 状态 ,P2P 公司 在 客户 真实 信息 验证 方面 面临 较 大 的 挑战 。 

移动 大 数据 可 以 验证 P2P 客户 的 居住 地 点 ,例如 某 个 客户 在 利用 手机 申请 贷款 
时 ,填写 自己 居住 地 是 上 海 。 但 是 P2P 企业 依据 其 提供 的 手机 设备 信息 ,发 现 其 过 去 
三 个 月 从 来 没有 居住 在 上 海 ,这 个 人 提交 的 信息 可 能 是 假 信息 ,发 生 恶 意 欺 诈 的 风险 
较 高 。 

移动 设备 的 位 置信 息 可 以 辨识 出 设备 持 有 人 的 居住 地 点 ,帮助 P2P 公司 验证 贷款 申 
请 人 的 居住 地 。 

2) 用 户 工作 地 点 的 验证 

借款 用 户 的 工作 单位 是 用 户 还 款 能 力 的 强 相关 信息 ,具有 高 薪 工 作 的 用 户 , 其 贷款 信 
用 违约 率 较 低 。 这 些 客户 成 为 很 多 贷款 平台 积极 争取 的 客户 ,也 是 恶意 欺诈 团伙 主要 假 
冒 的 客户 。 

某 个 用 户 在 申请 贷款 时 ,如 果 声 明 自 己 是 工作 在 上 海陆 家 嘴 金 融 企业 的 高 薪 人 士 ,其 
贷款 审批 会 很 快 并 且 额 度 也 会 较 高 。 但 是 P2P 公司 利用 移动 大 数据 ,发 现 这 个 用 户 在 过 
去 的 三 个 月 里 面 ,从 来 没有 出 现在 陆家嘴 ,大 多 数 时 间 在 城乡 接合 处 活动 ,那么 这 个 用 户 
恶意 欺诈 的 可 能 性 就 较 大 。 

移动 大 数据 可 以 帮助 P2P 公司 在 一 定 程度 上 来 验证 贷款 用 户 真实 工作 地 点 ,降低 犯 
罪 分 子 利 用 高 薪 工 作 进 行 恶意 欺诈 的 风险 。 

3) 欺诈 聚集 地 的 识别 

恶意 欺诈 往往 具有 团伙 作案 和 集中 作案 的 特点 。 犯 罪 团伙 成 员 常常 会 在 集中 在 一 个 
临时 地 点 ,雇佣 一 些 人 , 短 时 间 内 进行 疯狂 作案 。 

大 多 是 情况 下 ,多 个 贷款 用 户 在 同一 个 小 区 居住 的 概率 较 低 , 同 时 贷款 的 概率 更 低 。 
如 果 P2P 平台 发 现 短 短 几 天 内 ,在 同一 个 GPS 经 纬度 ,出 现 了 大 量 贷款 请 求 。 并 且 用 户 
信息 很 相似 ,申请 者 居住 在 偏远 郊区 ,这 些 贷款 请 求 的 恶意 欺诈 可 能 性 就 较 大 。P2P 公司 
可 以 将 这 些 异 常 行为 定义 为 高 风险 事件 ,利用 其 他 的 信息 进一步 识别 和 验证 ,降低 恶意 其 
诈 的 风险 。 
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移动 设备 的 位 置信 息 可 以 帮助 P2P 公司 ,识别 出 出 现在 同一 个 经 纬度 的 群体 性 恶意 
欺诈 事件 ,降低 不 良 贷款 发 生 概率 。 
4. 高 风险 贷款 用 户 的 识别 


高 风险 客户 也 是 P2P 企业 的 一 个 风险 。 高 风险 客户 定义 比较 广泛 ,除了 信用 风险 ， 
贷款 人 的 身体 健康 情况 也 是 一 个 重要 参考 。 移 动 大 数据 的 位 置信 息 、 安 装 的 APP 类 型 、 
APP 使 用 习惯 ,在 一 定 程度 上 反映 了 贷款 用 户 的 高 风险 行为 。 

P2P 企业 可 以 利用 移动 设备 的 位 置信 息 , 了 解 过 去 3 个 月 用 户 的 行为 轨迹 。 如 果 某 
个 用 户 经 常 在 半夜 2 点 出 现在 酒吧 等 危险 区 域 , 并 且 经 常 有 飙车 行为 ,这 个 客户 定义 成 高 
风险 客户 的 概率 就 较 高 。 移 动 APP 的 使 用 习惯 和 某 些 高 风险 APP 也 可 以 帮助 P2P 企 
业 识 别 出 用 户 的 高 风险 行为 。 

当 用 户 具 有 以 上 的 危险 行为 时 ,其 身体 健康 就 面临 着 较 大 的 威胁 ,P2P 企业 可 以 参考 
移动 数据 ,提高 将 客户 列 为 高 风险 客户 的 概率 ,拒绝 贷款 或 者 提前 收回 贷款 。 降 低 用 户 危 
丛 行 为 导致 坏账 的 风险 。 

移动 大 数据 在 预防 互联 网 恶意 欺诈 和 高 风险 客户 识别 方面 ,已 经 有 了 成 熟 的 应 用 场 
景 。 前 海 征 信 、 宜 信 、 聚 信 立 、 内 银 已 经 开始 利用 TalkingData 的 数据 ,预防 互联 网 恶意 欺 
诈 和 识别 高 风险 客户 ,并 取得 了 较 好 的 效果 。 移 动 大 数据 应 用 场景 正在 被 逐步 挖掘 出 来 ， 
未 来 移动 大 数 商 业 应 用 将 更 加 广阔 。 


9.5 大 数据 应 用 案例 之 : 大 吃 一 惊 ! 大 数据 下 的 中 国 原来 是 
这 样 的 


电影 (美国 队长 2》 中 有 句 台 词 : 21 世纪 就 是 本 数据 书 。 如 今 ,大 数据 越 来 越 被 广泛 
应 用 。 必 应 搜索 通过 集成 以 往 的 飞机 票 价 刻 画 出 未 来 票 价 的 走势 ;Google 利用 用 户 搜索 
记录 判断 出 美国 流感 疫情 的 现状 , 比 疾 控 中 心 快 一 两 周 ; 对 冲 基 金 通过 剖析 社交 网 络 推 特 
的 数据 信息 来 预测 股市 的 表现 …… 

整合 了 一 些 数据 分 析 下 的 国人 衣食 住 行 的 真实 情况 ,大 数据 下 的 中 国 或 许 会 令 你 大 
吃 一 惊 ! 

例如 ,2013 年 中 国产 生 的 数据 总 量 超过 0. 8ZB, 相 当 于 1200 万 个 中 国 国 家 图 书馆 藏 
书 量 ;2013 年 世界 上 所 储存 的 数据 如 果 印 刷 成 书 , 则 可 以 覆盖 整个 美国 52 次 。 

1. 超过 2.8 亿 的 中 国人 缺乏 安全 用 水 

环境 保护 部 今年 发 布 了 首 个 全 国 性 的 大 规模 研究 结果 。 结 果 显 示 , 我 国有 2.5 亿 居 
民 的 住宅 区 靠近 重点 排污 企业 和 交通 干道 ,2. 8 亿 居 民 在 使 用 不 安全 饮用 水 ,如 图 9. 7 
所 示 。 

由 于 规划 和 产业 布局 原因 ,我 国有 1.1 亿 居 民 住 宅 周 边 1 公里 范围 内 有 石化 .炼焦 、 
火力 发 电 等 重点 关注 的 排污 企业 ,1.4 亿 居民 住宅 周边 50m 范围 内 有 交通 干道 。 在 大 气 
污染 物 浓度 相同 的 情形 下 ,我 国 城市 居民 暴露 于 大 气 污染 健康 风险 是 农村 居民 的 70%。 





6332 ，。 大 政 据 技术 及 应 用 教程 


超过 2.8 亿 的 中 国人 缺乏 安全 用 水 














图 9.7 超过 2.8 亿 的 中 国人 缺乏 安全 用 水 





2. 中 国 每 年 生产 800 亿 双 筷子 
中 国 传统 的 筷子 本 来 是 我 们 的 骄 例 , 但 是 一 次 性 筷子 的 滥用 却 成 了 国人 的 耻辱 。 据 





图 9.8 中 国 每 年 生产 800 亿 双 竹子 


情况 似乎 在 今年 内 变 得 更 糟 。 最 新 调查 结果 显示 ,我 国 2013 年 生产 了 800 亿 双 一 次 
性 筷子 。 这 需要 砍伐 2000 万 棵 生长 了 20 年 的 大 树 ! 如 果 每 双 筷子 按 长 度 20 厘米 、 宽 度 
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1 厘米 .厚度 0. 5 厘米 计算 ,800 亿 双 筷子 可 铺 满 363 个 天 安 门 广场 。 

3. 国人 平均 睡眠 时 间 7.05 小 时 南方 人 更 爱 熬 夜 
睡眠 是 生命 中 最 珍贵 的 事 , 我 们 通过 大 数据 分 析 发 现 国人 的 几 个 怪 现象 : 南方 人 比 
北方 人 更 爱 熬 夜 ,单身 比 恋爱 中 的 人 睡 得 多 …… 

调查 报告 显示 , “中 国 睡 眠 指数 ”的 总 得 分 为 66. 5 分 , 较 去 年 的 64. 3 分 提升 了 
2. 2 分 ,表明 我 国 居民 整体 睡眠 状况 呈现 向 好 发 展 趋势 。 但 其 中 超过 三 成 (36. 2%) 居 
民 的 得 分 低 于 及 格 线 (60 分 ), 这 也 说 明了 国人 的 睡眠 状况 两 极 化 趋势 渐 显 : 整体 来 
看 ,人 们 开始 享受 舒适 的 睡眠 ,但 同时 也 有 更 多 的 人 饱 受 睡眠 障碍 的 困扰 ,如 图 9. 9 
所 示 。 





， 数 夜 用 户 占 比 : 





; 南方 化 北方 人 喝 要 攻 闪 : 


Sennmnnennmmemm 





“为 什么 南方 人 比 北方 人 更 能 熬夜 。: 一 一 
“因为 南方 黑 芝麻 糊 要 数 着 吃 。” Wy 
图 9.9 国人 平均 睡眠 时 间 7. 05 小 时 


QQ 大 数据 发 布 (网 民 睡 眠 质量 报告 ) 显 示 , 我 国 网 民 平 均 睡眠 时 间 为 7.05 小 时 ,而 
一 线 城市 网 民 睡 眠 时 间 最 少 , 仅 为 6. 95 小 时 ,熬夜 用 户 占 到 20. 9%。 据 统计 ,在 即使 是 
在 最 爱 睡 的 城市 呼和浩特 ,人 们 的 平均 睡眠 也 只 有 7. 33 小 时 ,没有 达到 8 小 时 。 

相 比 女性 ,男性 熬夜 时 间 更 长 , 较 女 性 高 了 4.7 个 百分点 。 而 就 年 龄 段 而 言 ,90 后 的 
熬夜 能 力 是 最 长 的 ,达到 了 人 数 的 31. 5% ,果然 是 年 轻 气 盛 啊 ,如 图 9. 10 所 示 。 

热恋 中 的 用 户 平 均 比 单身 用 户 多 睡 18 分 钟 ,可 见 人 是 个 不 甘 寂 宽 的 物种 …… 

大 部 分 网 民 半 夜 不 睡觉 ,都 在 做 什么 呢 ? 据 统 计 ,44. 8% 的 人 在 深夜 追 剧 ,另外 
43.8 儿 的 人 在 深夜 中 打 游戏 ,大 约 有 1/4 的 人 会 熬夜 看 书 , 煲 电话 粥 则 占 了 13. 8%。 看 
美剧 和 玩 游戏 都 是 时 间 的 一 大 杀 器 。 

在 睡 姿 统计 中 ,不 同 地 域 的 人 往往 会 选择 不 同 的 睡 姿 。 可 能 睡 姿 也 一 定 程度 上 暴露 
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单身 与 热恋 黎 夜 用 户 占 比 : 
单身 更 爱 数 夜 


wr 


少 睡 18 分 钟 





图 9.10 ”男性 熬夜 时 间 更 长 


了 性 格 ,豪放 的 “东北 爷们 ?最 爱 能 抱 睡 ,如 图 9. 11 所 示 。 

由 于 历史 等 各 方面 原因 ,南北 方 人 在 身高 饮食 等 各 个 方面 都 有 着 不 小 的 差异 , 没 想 到 
连 睡 觉 时 间 都 不 一 样 。 南 方 人 的 熬夜 指数 比 北方 大 约 高 5 个 百分点 。 

从 2010 年 至 今 ,手机 等 电子 产品 的 普及 和 发 展 进一步 “ 偷 ” 走 了 用 户 的 时 间 。 很 多 人 
熬夜 上 网 , 玩 游戏 ,看 小 说 ,对 身体 有 着 极 大 的 危害 。5 年 来 ,熬夜 人 数 上 升 了 8% ,平均 睡 
眠 时 间 也 下 降 了 一 小 时 ,由 原来 的 8. 1 小 时 降 到 7.05 小 时 。 

睡 上 腿 和 健康 是 直接 相关 的 ,在 科技 爆炸 的 时 代 , 睡 眠 时 间 和 质量 越 来 越 受 人 关注 , 建 
议 国 人 还 是 要 减少 数 夜 ,保持 身体 健康 。 

4. 卫星 数据 展现 雾 者 笼 置 下 的 中 国 

中 国 的 雾 独 备 受 世 界 瞩 目 ,美国 宇航 局 曾 公布 VIIRS(NASA 的 NPP 卫星 搭载 的 可 
见 光 红 外 成 像 辐射 套件 ) 设 备 拍摄 亚洲 上 空 的 雾 独 画面。 清晰 地 看 到 ,中 国 华北 一 带 的 上 
空 是 厚 厚 的 灰色 雾 独 层 , 如 图 9. 12 所 示 。 

通过 卫星 数据 看 到 雾 考 后 ,我 们 得 利用 大 数据 解决 雾 狗 的 问题 。 有 研究 机 构 称 , 可 以 
根据 现 有 监测 站 所 提供 的 空气 质量 数据 以 及 城市 里 的 其 他 多 种 数据 来 源 (包括 气象 情况 、 
交通 流量 .人 员 流 动 趋向 .路 网 结构 人 口 集中 点 等 ) ,运用 数据 挖掘 和 机 器 学 习 技术 ,对 大 
数据 加 以 充分 利用 ,并 在 监测 信息 和 对 应 结果 之 间 建 立 一 个 隐 式 映射 ,从 而 可 以 实时 推断 
出 包含 细 颗 粒 物 信息 的 城市 空气 质量 数据 。 

据悉 ,中 国 准备 在 京 津 费 ,长 三 角 和 珠 三 角 地 区 建立 雾 考 应 急 减 控 对 策 系 统 ,这 个 系 
统 依托 于 “天 河 一 号 ?计算 机 ,可 以 将 采集 到 的 海量 空气 质量 数据 进行 分 析 , 以 对 雾 独 做 出 
全 面 的 分 析 及 准确 的 预报 ,如 图 9. 13 所 示 。 
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桂林 人 票 头 几 哈尔滨 人 其 欧 晴 [i 





图 9.11 不 同 地 域 的 人 往往 会 选择 不 同 的 睡 姿 





~ 
图 9.12 卫星 数据 展现 筋 竹 笼 单 下 的 中 国 





9.13 中国 局 部 卫星 图 展现 的 雾 短 


知 四 部 分 





大 数据 技术 现状 及 发 展 展望 
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10.1 大 数据 引发 新 一 代 信 息 技 术 变革 浪潮 


大 数据 领域 已 经 涌现 出 了 大 量 新 的 技术 ,它们 成 为 大 数据 采集 ,存储 处理 和 呈现 的 
有 力 武器 。 这 些 技术 下 一 步 将 如 何 发 展 ? 它们 之 中 哪些 技术 将 广 为 流 行 ? 又 会 诞生 哪些 
新 的 技术 ? 

1. 技术 趋向 多 样 化 ,企业 应 选择 未 来 会 快速 普及 的 技术 

目前 ,大 数据 相关 的 技术 和 工具 非常 多 ,给 企业 提供 了 更 多 的 选择 。 在 未 来 ,还 会 继 
续 出 现 新 的 技术 和 工具 ,如 Hadoop 分 发 .下 一 代数 据 仓 库 等 ,这 也 是 大 数据 领域 的 创新 

那么 企业 到 底 该 选用 什么 技术 呢 ? 

TDWI( 数 据 仓 库 研 究 所 ) 对 现 有 的 大 部 分 技术 和 工具 进行 了 调查 ,以 现在 及 未 来 三 
年 内 企业 接受 度 和 增长 率 两 个 维度 进行 划分 ,这 些 技术 和 工具 可 分 成 四 类 : 第 1 类: 先进 
分 析 法 。 第 2 类 : 先进 数据 可 视 化 。 第 3 类 : 实时 化 仪表 盘 。 第 4 类 : 内 存 数据 库 。 

企业 最 需要 关注 的 是 第 1 类 中 的 技术 和 工具 ,它们 最 有 可 能 成 为 最 佳 的 实施 工具 ,也 
代表 了 大 数据 技术 的 发 展 方向 。 

2. 基于 云 的 数据 分 析 平台 将 更 趋 完 善 

企业 越 来 越 希望 能 将 自己 的 各 类 应 用 程序 及 基础 设施 转移 到 云 平台 上 。 就 像 其 他 
IT 系统 那样 ,大 数据 的 分 析 工 具 和 数据 库 也 将 走向 云 计算 。 

云 计 算 能 为 大 数据 带 来 哪些 变化 呢 ? 

首先 云 计算 为 大 数据 提供 了 可 以 弹性 扩展 、 相 对 便宜 的 存储 空间 和 计算 资源 ,使 得 中 
小 企业 也 可 以 像 亚 马 逊 一 样 通过 云 计算 来 完成 大 数据 分 析 , 如 图 10. 1 所 示 。 

其 次 , 云 计算 IT 资源 庞大 、 分 布 较为 广泛 ,是 异 构 系 统 较 多 的 企业 及 时 准确 处 理 数 
据 的 有 力 方 式 , 甚 至 是 唯一 的 方式 。 

当然 ,大 数据 要 走向 云 计算 , 还 有 赖 于 数据 通信 带宽 的 提高 和 云 资源 池 的 建设 ,需要 
确保 原始 数据 能 迁移 到 云 环境 以 及 资源 池 可 以 随 需 弹 性 扩展 。 

数据 分 析 集 逐步 扩大 ,企业 级 数据 仓库 将 成 为 主流 ,未 来 还 将 逐步 纳入 行业 数据 、 政 
府 公 开 数 据 等 多 来 源 数据 ,如 图 10. 2 所 示 。 

当 人 们 从 大 数据 分 析 中 尝 到 甜头 以 后 ,数据 分 析 集 就 会 逐步 扩大 。 目 前 大 部 分 的 企 
业 所 分 析 的 数据 量 一 般 以 TB 为 单位 。 按 照 目前 数据 的 发 展 速度 ,很 快 将 会 进入 PB 时 
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基于 云 的 数据 分 析 平台 框架 (示意 
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数据 分 析 人 员 。 业务 部 门人 员 





aa 各 地 区 、 各 业务 、 各 部 门 、 各 渠道 的 数据 


图 10.1 基于 云 的 数据 分 析 平台 框架 


不 同 数据 存储 量 的 企业 采取 SaaS 模 式 占 比 





33% 





小 于 25TB 25TB~99TB 100TB 以 上 
图 10.2 不 同 数据 存储 量 的 企业 采取 不 同 的 存储 模式 


代 。 特 别 是 目前 在 100~500TB 和 500 十 TB 范围 的 分 析 数 据 集 的 数量 会 呈 3 倍 或 4 倍 
增长 。 

随 着 数据 分 析 集 的 扩大 ,以 前 部 门 层级 的 数据 集 市 将 不 能 满足 大 数据 分 析 的 需求 , 它 
们 将 成 为 企业 级 数据 库 (EDW) 的 一 个 子 集 。 根 据 TDWI 的 调查 ,如 今 大 概 有 2/3 的 用 户 
已 经 在 使 用 企业 级 数据 仓库 ,未 来 这 一 占 比 将 会 更 高 。 传 统 分 析 数 据 库 可 以 正常 持续 ,但 
是 会 有 一 些 变化 ,一 方面 ,数据 集 市 和 操作 性 数据 存储 (ODS) 的 数量 会 减少 ; 另 一 方面 , 传 
统 的 数据 库 厂商 会 提升 它们 产品 的 数据 容量 、 细 目 数据 和 数据 类 型 ,以 满足 大 数据 分 析 的 

因此 ,企业 内 的 数据 分 析 将 从 部 门 级 过 渡 到 企业 级 ,从 面向 部 门 需求 转向 面向 企业 需 
求 ,从 而 也 必 将 获得 比 部 门 视角 更 大 的 益处 。 

需要 指出 的 是 , 随 着 政府 和 行业 数据 的 开放 ,更 多 的 外 部 数据 将 进入 企业 级 数据 仓 
库 ,使 得 数据 仓库 规模 更 大 ,数据 的 价值 也 越 大 。 


了 
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根据 大 数据 处 理 的 生命 周期 ,大 数据 的 技术 体系 通常 可 以 分 为 大 数据 采集 与 预 处 理 、 
大 数据 存储 与 管理 ,大 数据 计算 模式 与 系统 ,大 数据 分 析 与 挖掘 ,大 数据 可 视 化 计算 以 及 
大 数据 隐私 与 安全 等 几 个 方面 。 

1. 问题 与 挑战 

通常 大 数据 描述 了 一 个 对 象 (物理 的 或 逻辑 的 ) 或 一 个 过 程 的 全 景 式 的 和 全 周期 的 状 
态 , 因 此 ,其 来 源 必然 是 多 源 的 ,其 形式 是 多 模 态 的 。 数 据 的 多 源 和 多 模 态 的 不 确定 性 和 
多 样 性 ,必然 导致 数据 的 质量 存在 差异 ,严重 影响 到 数据 的 可 用 性 。 

由 于 数据 量 的 大 规模 性 ,即使 错误 数据 的 相对 比例 不 大 ,而 绝对 的 错误 数据 量 也 是 非 
常 可 观 的 。 据 国际 咨询 机 构 调 查 , 全 球 财富 1000 强 企 业 中 25% 以 上 的 企业 信息 信息 系 
统 存在 不 正确 的 数据 ,美国 企业 信息 系统 中 1%~30% 的 数据 存在 各 种 错误 ,美国 工业 企 
业 由 于 数据 错误 而 引起 的 生产 事故 和 决策 错误 ,每 年 造成 6000 多 亿美 元 的 损失 。 

数据 的 可 用 性 取决 于 数据 质量 。 数 据 质 量 的 定义 有 很 多 说 法 。 按 照 一 般 的 的 定义 ， 
数据 质量 包含 五 种 特性 : 精确 性 一致 性 .完整 性 .同一 性 和 实效 性 。 

精确 性 指数 据 符合 规定 的 精度 ,不 超出 误差 范围 ;一 致 性 指数 据 之 间 不 能 存在 相互 矛 
盾 ; 完 整 性 指数 据 的 值 不 能 为 空 ; 同 一 性 指 实体 的 标识 是 唯一 的 ;时 效 性 指数 据 的 值 反 映 
了 实际 的 状态 。 此 外 ,考虑 到 人 为 因素 ,还 可 以 要 求 第 六 个 性 质 , 即 真 实 性 , 即 数 据 不 能 是 
人 工 伪造 的 。 

2. 主要 进展 

针对 管理 信息 系统 中 异 构 数据 库 集成 技术 .Web 信息 系统 中 的 实体 识别 技术 和 
DeepWeb 集成 技术 ,传感器 网 络 数据 融合 技术 已 经 有 很 多 研究 工作 ,取得 了 较 大 的 进展 ， 
已 经 推出 了 多 种 数据 清洗 和 质量 控制 工具 ,例如 ,美国 SAS 公司 的 Data Flux、 美 国 IBM 
公司 的 Data Stage、 美 国 Informatica 公司 的 Informatica Power Center。 

但 是 ,针对 各 种 类 型 .各 种 应 用 的 大 数据 的 特点 ,如 何 保证 一 致 性 .精确 性 、 完 整 性 、 统 
一 性 .时效 性 、 真 实 性 六 个 性 质 ,并 且 保 证 可 行 的 处 理 效率 ,还 缺乏 全 面 系统 的 研究 ,许多 
新 问题 有 待 于 发 现 和 解决 。 

3. 发 展 趋势 

为 了 保证 大 数据 的 可 用 性 ,首先 必须 在 数据 的 源头 上 把 好 质量 关 , 做 好 从 原始 数据 到 
高 质量 信息 的 预 处 理 。 具 体 的 关键 技术 有 如 下 几 种 。 

1) 数据 源 的 选择 和 高 质量 原始 数据 的 采集 方法 

用 于 从 可 靠 的 高 质量 数据 源 里 ,获得 高 质量 的 原始 数据 。 为 了 确保 数据 源 的 质量 , 需 
要 建立 数据 源 的 质量 评估 理论 模型 ,包括 数据 源 的 综合 质量 评估 和 高 质量 数据 源 的 选择 
方法 。 然 后 ,针对 各 种 模 态 数据 的 特点 ,建立 高 质量 多 模 态 数据 的 获取 方法 ,包括 有 效 的 
数据 采集 方法 .多 模 态 数据 融合 算法 .数据 的 保质 转换 算法 .数据 精确 性 和 一 致 性 方面 的 
错误 校 验 和 纠 错 , 数 据 完整 性 方面 的 缺失 值 估 计数 据 的 时 效 性 检测 , 数 的 真实 性 验证 等 。 
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2) 多 源 数据 的 实体 识别 和 解析 方法 

用 于 识别 和 合并 相同 的 实体 ,区 分 不 同 的 实体 。 为 了 高 质量 的 数据 集成 商定 基础 , 必 
须 保证 数据 的 实体 同一 性 ,解决 来 自 多 个 数据 源 的 多 模 态 数据 的 实体 识别 问题 。 需 要 建 
立 多 源 数据 的 实体 关联 模型 和 识别 模型 .多 源 多 模 态 数据 的 实体 自动 识别 方法 、 实 体 识别 
效果 的 评估 模型 等 。 

3) 数据 清洗 和 自动 修复 方法 

根据 正确 性 条 件 和 数据 约束 规则 ,清除 不 合理 和 错误 的 数据 ,对 重要 的 信息 进行 修 
复 , 保 证 数据 的 完整 性 。 需 要 建立 数据 正确 性 语义 模型 .关联 模 型 和 数据 约束 规则 、 数 据 
错误 模型 和 错误 识别 学 习 框 架 、 针 对 不 同 错误 类 型 的 自动 检测 和 修复 算法 、 错 误 检测 与 修 
复 结果 的 评估 模型 和 评估 方法 等 。 

4) 高 质量 的 数据 整合 方法 

在 数据 采集 和 实体 识别 的 基础 上 ,进而 实现 数据 到 信息 的 高 质量 整合 。 需 要 建立 多 
源 多 模 态 信息 集成 模型 . 异 构 数据 智能 转换 模型 . 异 构 数据 集成 的 智能 模式 抽取 和 模式 匹 
配 算法 .自动 的 容错 映射 和 转换 模型 及 算法 .整合 信息 的 正确 性 验证 方法 .整合 信息 的 可 
用 性 评估 方法 等 。 

5) 数据 演化 的 溯源 管理 

用 于 对 数据 的 演化 过 程 进行 跟踪 和 记录 ,以 保证 和 控制 数据 的 质量 。 需 要 建立 世系 
模型 及 其 追踪 技术 ,主要 包括 时 空 ` 多 粒度 .多 路 径 和 不 确定 的 海量 信息 演化 的 演化 模型 
和 演化 描述 方法 ,演化 模式 的 正 向 性 评估 模型 与 方法 、 演 化 的 可 逆 性 判定 与 近似 求解 算 
法 、 分 布 式 . 多 粒度 .概率 化 的 世系 追踪 技术 等 。 

总 之 ,大 数据 的 采集 和 预 处 理 是 大 数据 的 源头 ,在 源头 上 把 好 质量 关 , 对 大 数据 的 后 
续 处 理 和 分 析 至 关 重 要 。 因 此 ,对 大 数据 的 使 用 者 ,研究 者 、 开 发 者 以 及 上 级 主管 部 门 , 提 
出 如 下 建议 : 

(1) 提高 用 户 对 大 数据 可 用 性 的 重要 性 的 认识 ,切实 开展 大 数据 质量 控制 ,确保 大 数 
据 处 理 和 分 析 结 果 的 正确 性 。 

(2) 针对 大 数据 质量 控制 面临 的 挑战 性 问题 ,学 术 界 应 加 强 对 大 数据 可 用 性 评估 和 
保证 的 关键 技术 的 研究 和 开发 。 

(3) 大 数据 的 质量 控制 具有 广泛 的 需求 和 巨大 的 市 场 前 景 ,工业 界 应 注重 大 数据 可 
用 性 的 评估 ,加 强 数据 质量 保证 软件 的 开发 和 推广 。 

(4) 建议 政府 有 关 部 门 尽快 建立 关于 大 数据 可 用 性 (数据 质量 ) 的 标准 ,保证 大 数据 
的 统一 质量 ,有 效 保证 大 数据 的 利用 价值 。 


10.3 大 数据 存储 与 管理 技术 发 展 前 景 


1. 问题 与 挑战 

大 数据 给 存储 系统 带 来 了 三 个 方面 的 挑战 : 

(1) 存储 规模 大 ,通常 达到 PB(1000TB) 甚 至 EB(1000PB) 量 级 。 
(2) 存储 管理 复杂 ,需要 兼顾 结构 化 、 非 结构 化 和 半 结 构 化 的 数据 。 
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(3) 数据 服务 的 种 类 和 水 平 要 求 高 ,换言之 ,上 层 应 用 对 存储 系统 的 性 能 、 可 靠 性 等 
指标 有 不 同 的 要 求 ,而 数据 的 大 规模 和 高 复杂 度 放 大 了 达到 这 些 指标 的 技术 难度 。 这 些 
挑战 在 存储 领域 并 不 是 新 问题 ,但 在 大 数据 背景 下 ,解决 这 些 问题 的 技术 难度 成 倍 提高 ， 
数据 的 量变 终 将 引起 存储 技术 的 质变 。 

大 数据 环境 下 的 存储 与 管理 软件 栈 , 需 要 对 上 层 应 用 提供 高 效 的 数据 访问 接口 , 存 取 
PB 甚至 EB 量 级 的 数据 ,并 且 能 够 在 可 接受 的 响应 时 间 内 完成 数据 的 存 取 , 同 时 保证 数 
据 的 正确 性 和 可 用 性 ;对 底层 设备 ,存储 软件 栈 需要 充分 高 效 的 管理 存储 资源 ,合理 地 利 
用 设备 的 物理 特性 ,以 满足 上 层 应 用 对 存储 性 能 和 可 靠 性 的 要 求 。 在 大 数据 带 来 的 新 挑 
战 下 ,要 完成 以 上 这 些 要 求 ,需要 更 进一步 的 研究 存储 与 管理 软件 技术 。 

2. 主要 进展 

根据 为 上 层 应 用 提供 的 访问 接口 和 功能 侧重 不 同 , 存 储 与 管理 软件 主要 包括 文件 系 
统 和 数据 库 ; 在 大 数据 环境 下 ,目前 最 适用 的 技术 是 分 布 式 文件 系统 、 分 布 式 数据 库 以 及 
访问 接口 和 查询 语言 。 

1) 分 布 式 文件 系统 

分 布 式 文件 系统 所 管理 的 数据 存储 在 分 散 的 设备 或 结 点 上 ,存储 资源 通过 网 络 连接 。 
用 分 布 式 文件 系统 对 大 数据 进行 存储 与 管理 ,日 前 的 研究 主要 涉及 以 下 几 个 关键 的 技术 : 

(1) 高 效 元 数据 管理 技术 。 

大 数据 应 用 下 ,元 数据 的 规模 也 非常 大 ,元 数据 的 存 取 性 能 是 整个 分 布 式 文件 系统 性 
能 的 关键 。 常 见 的 元 数据 管理 可 以 分 为 集中 式 和 分 布 式 元 数据 管理 架构 。 集 中 式 元 数据 
管理 架构 采用 单一 的 元 数据 服务 器 ,优点 是 实现 简单 ,但 存在 单 点 故障 等 问题 。 分 布 式 元 
数据 管理 架构 则 将 元 数据 分 散在 多 个 结 点 上 ,从 而 解决 了 元 数据 服务 器 性 能 瓶颈 问题 , 提 
高 了 可 扩展 性 ,但 实现 复杂 ,并 引入 了 元 数据 一 致 性 的 问题 。 

此 外 ,还 有 一 种 无 元 数据 服务 器 的 分 布 式 架构 ,使 用 在 线 算法 组 织 数 据 ,不 需要 专用 
的 元 数据 服务 器 。 但 是 该 架构 对 数据 一 致 性 的 保证 很 困难 ,实现 复杂 。 文 件 目录 遍历 操 
作 的 效率 低下 ,并 且 缺 乏 文件 系统 全 局 监控 管理 功能 。 

(2) 系统 弹性 扩展 技术 。 

大 数据 环境 下 ,数据 规模 和 复杂 度 的 增加 往往 非常 迅速 ,所 以 按 需 扩 展 系 统 规模 是 十 
分 必要 的 。 实 现存 储 系统 的 高 可 扩展 性 首先 要 解决 两 个 方面 的 重要 问题 : 元 数据 的 分 配 
和 数据 的 透明 迁移 。 前 者 主要 通过 静态 子 树 划分 和 动态 子 树 划分 技术 实现 ,后 者 则 侧重 
数据 迁移 算法 的 优化 。 

此 外 ,大 数据 存储 系统 规模 庞大 , 结 点 失效 率 高 ,因此 还 需要 实现 一 定 程度 上 的 自 适 
应 管理 功能 。 系 统 必 须 能 够 根据 数据 量 和 计算 的 工作 量 估算 所 需要 的 结 点 个 数 ,并 动态 
地 将 数据 在 结 点 间 迁 移 , 以 实现 负载 均衡 ;同时 , 结 点 失效 时 ,数据 必须 可 以 通过 副本 等 机 
制 进行 恢复 ,不 能 对 上 层 应 用 产生 影响 。 

(3) 存储 层级 内 的 优化 技术 。 

构建 存储 系统 时 ,需要 基于 成 本 和 性 能 来 考虑 ,因此 存储 系统 通常 采用 多 层 不 同性 价 
比 的 存储 器 件 组 成 存储 层次 结构 。 大 数据 的 规模 大 ,因此 构建 高 效 合理 的 存储 层次 结构 ， 


人 


可 以 在 保证 系统 性 能 的 前 提 下 ,降低 系统 能 耗 和 构建 成 本 。 利 用 数据 访问 局 部 性 原理 ,可 
以 从 两 个 方面 对 存储 层次 结构 进行 优化 。 


过 高 效 的 缓存 预 取 算 法 和 合理 的 缓存 容量 配 比 ,以 提高 访问 性 能 。 从 降低 成 本 的 角度 , 采 
用 信息 生命 周期 管理 方法 ,将 访问 频率 低 的 冷 数据 迁移 到 低速 廉价 存储 设备 上 ,可 以 在 小 
幅 牺 牲 系 统 整体 性 能 的 基础 上 ,大 幅 降 低 系 统 的 构建 成 本 和 能 耗 。 

(4) 针对 应 用 和 负载 的 存储 优化 技术 。 

传统 数据 存储 模型 需要 支持 尽 可 能 多 的 应 用 ,因此 需要 具备 较 好 的 通用 性 。 大 数据 
具有 大 规模 、 高 动态 及 快速 处 理 等 特性 ,通用 的 数据 存储 模型 通常 并 不 是 最 能 提高 应 用 性 
能 的 模型 ,而 大 数据 存储 系统 对 上 层 应 用 性 能 的 关注 远 超 过 对 通用 性 的 追求 。 针 对 应 用 
和 负载 来 优化 存储 ,就 是 将 数据 存储 与 应 用 耦合 ,放宽 POSIX 接口 ,简化 或 扩展 分 布 式 文 
件 系统 的 功能 ,根据 特定 应 用 、 特 定 负载 ,特定 的 计算 模型 对 文件 系统 进行 定制 和 深度 优 
化 ,使 应 用 达到 最 佳 性 能 。 这 类 优化 技术 在 Google、Facebook 等 互联 网 公司 的 内 部 存储 
系统 上 ,管理 超过 PB 级 的 大 数据 ,能 够 达到 非常 高 的 性 能 。 

(5) 针对 存储 器 件 特性 的 优化 技术 。 

随 着 新 型 存储 器 件 的 发 展 和 成 熟 ,Flash ,PCM 等 逐渐 开始 在 存储 层级 中 占据 一 席 之 
地 ,存储 软件 栈 也 随 之 开始 逐渐 发 生变 化 。 以 Flash 为 例 ,起 初 各 厂商 通过 闪存 转换 层 
FTL 对 新 型 存储 器 进行 封装 ,以 屏蔽 存储 器 件 的 特性 ,适应 存储 软件 栈 的 现 有 接口 。 但 
是 随 着 Flash 的 普及 ,产生 了 许多 针对 应 用 对 FTL 进行 的 优化 ,以 及 针对 Flash 特性 进 
行 定制 的 文件 系统 ,甚至 有 去 掉 FTL 这 层 宛 余 直 接 操 作 Flash 的 存储 解决 方案 。 

传统 的 本 地 文件 系统 ,包括 分 布 式 文件 系统 ,是 否 能 够 与 新 型 存储 器 件 耦合 ,最 大 程 
度 地 利用 这 些 存储 器 件 新 特性 上 的 优势 ,需要 存储 软件 开发 者 重新 审视 存储 软件 栈 , 去 除 
存储 软件 栈 的 元 余 , 甚 至 需要 修复 一 些 不 再 合适 的 部 分 。 

2) 分 布 式 数据 库 

大 数据 时 代 企 业 对 数据 的 管理 .查询 及 分 析 的 需求 变化 促 生 了 一 些 新 的 技术 的 出 现 。 
需求 的 变化 主要 集中 在 数据 规模 的 增长 .吞吐 量 的 上 升 .数据 类 型 以 及 应 用 多 样 性 的 变化 
上 。 数 据 规 模 和 吞吐 量 的 增长 需求 对 传统 的 关系 型 数据 库 管理 系统 在 并 行 处 理 , 事 务 特 
性 的 保证 ,互联 协议 的 实现 ,资源 管理 以 及 容错 等 各 个 方面 带 来 了 很 多 挑战 。 而 数据 类 型 
以 及 应 用 的 多 样 性 带 来 了 为 了 支持 不 同 应 用 的 数据 管理 系统 。 

(1) 事务 性 数据 库 。 

这 类 数据 库 主要 包括 NoSQL 和 NewSQL。NoSQL(“Not Only SQL” 或 者 “Not 
Relational”) 系 统 往往 通过 放松 对 事务 ACID 语义 的 方法 来 增加 系统 的 性 能 以 及 可 扩展 
性 (CAP 定理 )。NoSQL32 系统 往往 具有 以 下 几 个 特征 : 

@ 非 关系 数据 模型 ,比如 键 值 存储 等 。 

@ 对 简单 操作 比如 键 值 查询 的 水 平 可 扩展 性 ,往往 不 支持 SQL 全 集 。 

@ 在 多 个 结 点 中 分 割 和 复制 数据 的 能 力 。 

@ 弱 并 发 一 致 性 语义 (比如 最 终 一 致 性 ) 。 

@ 充分 利用 分 布 式 索引 和 内 存 。 
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根据 管理 数据 的 模式 分 类 ,NoSQL 系统 可 以 分 为 三 类 : 键 值 系统 ,文档 存储 系统 以 
及 图 数据 库 。 键 值 系统 的 代表 性 系统 包括 BigTable、Dynamo、HBase、Gemfire、 Redis、 
Cassandra, 文 档 存储 系统 的 代表 包括 MongoDB 和 Couchbase, 图 数据 库 的 代表 是 Neo4j 
等 等 。 

NoSQL 系统 通过 对 事务 语义 的 放松 达到 系统 的 可 扩展 性 ,但 是 把 一 致 性 的 维护 交 由 
用 户 来 管理 ,这 对 很 多 对 一 致 性 要 求 不 高 的 应 用 来 说 是 足够 的 。 但 是 如 果 应 用 需要 保证 
一 致 性 ,对 开发 人 员 来 说 就 很 困难 了 。NewSQL 就 是 在 这 样 的 背景 下 诞生 的 。NewSQL 
系统 可 以 在 提供 类 似 NoSQL 的 可 扩展 性 的 同时 保证 事务 ACID 属性 ,并 且 提 供 SQL 用 
户 接 口 。NewSQL 系统 通常 可 以 分 为 两 类 。 

@ 通用 数据 库 : 这 类 系统 保持 传统 分 布 式 数据 库 的 功能 ,但 是 在 设计 分 布 式 体系 架 
构 时 充分 考虑 了 大 规模 高 吞吐 系统 的 特性 。 这 类 系统 的 典型 代表 是 Spanner 和 NuoDB。 

@ 基于 内 存 的 数据 库 : 这 类 系统 基本 上 针对 的 是 高 吞吐 短小 事务 ,不 再 采用 传统 的 
关系 型 数据 库 设 计 。 这 类 数据 库 的 典型 代表 是 SQLFire 和 VoltDB。 

(2) 分 析 型 数据 库 。 

分 析 型 数据 库 在 大 数据 时 代 也 呈现 了 一 种 百家争鸣 的 局 面 。 自 从 MapReduce 被 提 
出 以 及 Hadoop33 的 流行 ,出 现 了 多 家 针对 Hadoop 的 SQL 分 析 引 擎 ,代表 性 系统 包括 
Hive .HAWQ Impala 和 Hadapt。 

Hive34 是 一 个 基于 MapReduce 的 SQL 引擎 。 基 本 原理 是 接受 SQL ,解析 SQL , 然 
后 把 SQL 语句 翻译 成 多 个 MapReduce 的 任务 ,通过 MapReduce 来 实现 基本 的 SQL 操 
作 。 因 为 Hive 基于 MapReduce, 所 以 它 把 容错 、 执 行 以 及 资源 管理 的 工作 都 交 给 了 
MapReduce 框架 ,其 特点 是 简单 与 易于 实现 。 但 是 它 也 有 一 些 不 可 避免 的 缺陷 ,包括 对 
标准 SQL 以 及 实时 查询 的 支持 ,难于 优化 带 来 的 查询 性 能 低下 ,并且 很 难 充分 利用 整个 
集群 的 资源 ,从 而 导致 并 发 吞吐 量 较 低 。 

HAWQ35(Hadoop with Query) 是 Hadoop 领域 与 SQL 兼容 的 大 规模 数据 分 析 引 
擎 。 HAWQ 继承 了 Hadoop 与 MPP 大 规模 数据 库 分 析 引 擎 的 优点 ,实现 了 HDFS 分 布 
式 存储 与 MPP 执行 引擎 的 结合 。HAWQ 实现 了 MPP 基于 统计 的 优化 器 ,支持 数 百 万 
连接 的 网 络 互 联 协议 ,数据 的 多 级 划分 与 存储 和 高 效 的 执行 引擎 。 

其 特点 是 与 各 种 BI 工具 的 兼容 ,实时 查询 的 支持 ,以 及 与 基于 MapReduce 系统 的 性 
能 优势 。 

Impala 和 Hadapt 是 另外 两 个 基于 Hadoop 的 SQL 引擎 。 其 基本 的 出 发 点 也 是 把 
MPP 的 技术 引入 Hadoop。 但 目前 还 不 是 很 成 熟 。 

3) 访问 接口 和 查询 语言 

大 数据 系统 的 访问 接口 和 查询 语言 取决 于 系统 的 存储 模型 。 传 统 的 MPP 数据 库 都 
使 用 关系 模型 ,其 查询 语言 为 标准 的 SQL。 而 图 数据 库 有 自己 的 查询 语言 ,可 以 实现 子 
图 匹配 .路径 查询 等 功能 。 

Hadoop 本 身 使 用 的 是 HDFS,MapReduce 编程 接口 可 以 作为 其 访问 接口 。 构 建 在 
Hadoop 之 上 的 类 数据 库 系 统 则 提供 各 自 存 储 模 型 所 对 应 的 查询 语言 和 访问 接口 。 例 
如 ,HBase 提供 API, 用 于 对 数据 表 进 行 key-value 形式 的 查询 和 增删 改 操 作 。 
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Hive 则 提供 称 为 HiveQL 的 查询 语言 ,用 于 对 关系 表 进行 查询 , HiveQL 同 SQL 非 
常 相似 ,并 附带 一 些 SQL 未 提供 的 功能 。 为 了 方便 对 hadoop 的 使 用 ,一 系列 的 查询 语言 
和 附加 访问 接口 被 提出 。 

Pig 是 一 种 基于 MapReduce 的 编程 平台 , 它 的 访问 语言 Pig Latin 是 介 于 SQL 和 过 
程式 程序 设计 语言 之 间 的 语言 ,结合 了 SQL 申明 式 (declarative) 语 言 的 优势 以 及 过 程式 
程序 设计 的 灵活 性 ,得 到 了 众多 程序 设计 者 的 青睐 。 

Sqoop 是 一 种 用 于 在 关系 数据 库 和 hadoop 之 间 进 行 数据 迁移 的 命令 式 语言 。 
Mahout 则 是 构建 在 hadoop 之 上 的 机 器 学 习 引 擎 ,也 拥有 自己 的 一 套 访问 接口 。 

3, 发 展 趋势 

大 数据 给 存储 系统 的 发 展 趋势 是 实时 / 流 式 大 数据 存储 与 处 理 。 

随 着 业务 的 增长 ,业界 对 大 数据 的 速度 (Velocity) 维 度 越 来 越 关 注 , 过 去 需要 几 天 或 
者 几 个 小 时 才能 回答 的 问题 现在 期 望 在 几 分 钟 、 几 秒 其 至 毫秒 内 得 到 解决 。 实 时 流 数 据 
存储 和 处 理 技术 将 会 越 来 越 多 地 被 研究 和 开发 。 实 时 流 式 大 数据 的 处 理 在 很 多 方面 和 分 
布 式 系统 在 原理 上 有 很 多 相似 之 处 ,然而 也 有 其 独特 需求 。 

实时 流 数据 处 理 系统 包括 流 数据 的 实时 存储 和 流 数据 的 实时 计算 。 流 数据 存储 指 的 
是 快速 高 效 的 存储 流 式 数 据 到 数据 库 ,数据 仓库 或 者 数据 池 中 ; 流 数据 的 实时 计算 注重 对 
流 数据 的 快速 高 效 处 理 ,计算 和 分 析 。 

1) 数据 流 加 载 

实时 流 式 大 数据 系统 中 ,数据 通常 以 流 的 方式 进入 系统 。 如 何 高 效 且 可 靠 地 将 数据 
加 载 到 大 数据 存储 系统 中 成 为 流 式 大 数据 系统 实现 低 延 迟 处 理 的 基础 。 此 外 能 够 重新 处 
理 数 据 流 中 的 数据 也 是 一 个 很 有 价值 的 特性 。 

2) 复杂 事件 处 理 (CEP) 

数据 流 中 的 数据 源 是 多 种 多 样 的 ,数据 的 格式 也 是 多 种 多 样 , 而 数据 的 转换 、 过 滤 和 
处 理 逻 辑 更 是 千变万化 ,因而 需要 强大 而 又 灵活 的 复杂 事件 处 理 引 擎 来 适应 各 种 场景 下 
的 需求 。 

3) 高 可 用 性 

数据 通过 复杂 处 理 引 擎 和 流 计算 框 架 时 ,通常 会 经 过 很 多 步骤 和 结 点 ,而 其 中 任何 一 
步 都 有 出 错 的 可 能 ,为 了 保证 数据 的 可 靠 性 和 精准 投递 ,系统 需要 具有 容错 和 去 重 能 力 。 

4) 流量 控制 和 缓存 

整个 流 系 统 可 能 有 若干 个 模块 ,每 个 模块 的 处 理 能 力 和 吞吐 量 差别 很 大 ,为 了 实现 总 
体高 效 的 数据 处 理 , 系 统 需要 对 流量 进行 控制 和 动态 结 点 增加 和 删除 的 能 力 。 当 数据 流 
人 大 于 流出 的 速度 时 ,还 需要 有 一 定 的 缓存 能 力 ,如 果 内 存 不 足以 缓存 快速 流入 的 数据 
时 ,需要 能 够 持久 化 到 存储 层 。 

目前 市 场 上 已 经 出 现 了 多 种 大 数据 实时 处 理 技术 ,它们 各 有 不 同 的 侧重 点 ,例如 数据 
传输 技术 有 Flume、Scribe、Kafka、Sqoop 等 ,计算 框架 有 Storm、S4、 Spark 等 。 基 于 
Hadoop 的 SQL 处 理 引 擎 有 Impala、.HAWQ 等 。 另 外 还 有 一 些 产 品 在 大 数据 流 计算 框 
架 之 上 提供 分 析 即 服务 ,例如 Cetas。 大 数据 的 实时 存储 与 处 理 还 有 很 多 需要 研究 和 解 
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决 的 问题 。 
10.4 大 数据 计算 模式 与 系统 技术 发 展 前 景 
1. 问题 与 挑战 


为 了 能 更 清晰 地 理解 不 同 的 大 数据 计算 模式 ,首先 需要 梳理 出 大 数据 处 理 中 主要 的 
数据 特征 和 计算 特征 维度 ,在 此 基础 上 进一步 梳理 目前 出 现 的 各 种 重要 和 典型 的 大 数据 
计算 模式 。 大 数据 处 理 包括 以 下 典型 的 特征 和 维度 。 

1) 数据 结构 特征 

根据 数据 结构 特征 大 数据 可 分 为 结构 化 / 半 结 构 化 数据 处 理 与 非 结构 化 数据 处 理 。 

2) 数据 获取 处 理 方式 

按照 数据 获取 方式 ,大 数据 可 分 为 批 处 理 与 流 式 计算 (streaming) 方 式 。 

3) 数据 处 理 类 型 

从 数据 处 理 类 型 来 看 ,大 数据 处 理 可 分 为 传统 的 查询 分 析 计算 和 复杂 的 数据 挖掘 分 
析 计 算 。 

4) 实时 性 或 响应 性 能 

从 数据 计算 响应 性 能 角度 看 ,大 数据 处 理 可 分 为 实时 / 准 实时 与 非 实时 计算 ,或 者 
是 联机 (online) 计 算 与 线 下 (offline) 计 算 。 流 式 计算 通常 属于 实时 计算 ,查询 分 析 类 计 
算 通 常 也 要 求 具 有 高 响应 性 能 ,而 批 处 理 和 复杂 数据 挖掘 计算 通常 属于 非 实 时 或 线 下 
计算 。 

5) 迭代 计算 

现实 的 数据 处 理 中 有 很 多 计算 问题 需要 大 量 的 迭代 计算 (如 一 些 机 器 学 习 算 法 ) ,为 
此 需要 提供 具有 高 效 的 迭代 计算 能 力 的 计算 模式 。 

6) 数据 关联 性 

MapReduce 适用 于 处 理 数据 关系 较为 简单 的 计算 任务 ,但 社会 网 络 等 具有 复杂 数据 
关系 的 计算 任务 则 需要 研究 和 使 用 图 数据 计算 模式 。 

7) 并 行 计算 体系 结构 特征 

由 于 需要 支持 大 规模 数据 的 存储 计算 ,大 数据 处 理 通 常 需要 使 用 基于 集群 的 分 布 式 
存储 与 并 行 计算 体系 结构 和 硬件 平台 。 此 外 ,为 了 克服 传统 的 MapReduce 框架 在 计算 性 
能 上 的 缺陷 ,人 们 从 体系 结构 层面 上 提出 了 内 存 计算 模式 。 

2. 主要 进展 

根据 大 数据 处 理 多 样 性 的 需求 和 以 上 不 同 的 特征 维度 ,目前 出 现 了 多 种 典型 和 重 
要 的 大 数据 计算 模式 。 与 这 些 计算 模式 相 适 应 ,出 现 了 很 多 对 应 的 大 数据 计算 系统 和 
工具 。 由 于 单纯 描述 计算 模式 比较 抽象 和 空洞 ,因此 ,在 描述 不 同 计算 模式 时 ,将 同时 
给 出 相应 的 典型 计算 系统 和 工具 ,这 将 有 助 于 对 计算 模式 的 理解 以 及 对 技术 发 展现 状 
的 把 握 ,并 进一步 有 利于 在 实际 大 数据 处 理应 用 中 对 合适 的 计算 技术 和 系统 工具 的 选 
择 使 用 。 
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1) 大 数据 查询 分 析 计 算 模式 与 典型 系统 

由 于 行业 数据 规模 的 增长 已 大 大 超过 了 传统 的 关系 数据 库 的 承载 和 处 理 能 力 ,因此 ， 
目前 需要 尽快 研究 并 提供 面向 大 数据 存储 管理 和 查询 分 析 的 新 的 技术 方法 和 系统 ,尤其 
要 解决 在 数据 体 量 极 大 时 如 何 能 够 提供 实时 或 准 实时 的 数据 查询 分 析 能 力 , 满 足 企业 日 
常 的 经 营 管理 需求 的 问题 。 然 而 ,大 数据 的 查询 分 析 处 理 具有 很 大 的 技术 挑战 ,在 数量 规 
模 较 大 时 ,即使 采用 分 布 式 数 据 存储 管理 和 并 行 化 计算 方法 ,仍然 难以 达到 关系 数据 库 处 
理 中 小 规模 数据 时 那样 的 秒 级 响应 性 能 。 

大 数据 查询 分 析 计 算 的 典型 系统 包括 Hadoop36 下 的 HBase 和 Hive、Facebook 开 
发 的 Cassandra、Google 公司 的 Dremel、Cloudera 公司 的 实时 查询 引擎 Impala; 此 外 ,为 
了 实现 更 高 性 能 的 数据 查询 分 析 ,还 出 现 了 不 少 基于 内 存 的 分 布 式 数 据 存储 管理 和 查询 
系统 ,如 UC Berkeley AMPLab 的 基于 内 存 计 算 引 擎 Spark 的 数据 仓库 Shark .SAP 公司 
的 Hana 等 ,如 表 10. 1 所 示 。 


表 10.1 典型 大 数据 计算 模式 与 系统 




















大 数据 计算 模式 与 系统 代表 产品 

大 数据 查询 分 析 计 算 HBase, Hive,Cassandra, Impala, Shark, Hana 
批 处 理 计算 Hadoop MapReduce, Spark 

迭代 计算 HaLoop,iMapReduce,Twister,Spark 

计算 Pregel, Giraph, Trinity, PowerGraph, GraphX 
流 式 计算 Scribe, Flume, Storm, S4, Spark Steaming 

内 存 计算 Dremel, Hana, Spark 





2) 批 处 理 计算 模式 与 典型 系统 

最 适合 于 完成 大 数据 批 处 理 的 计算 模式 是 MapReduce。MapReduce 是 一 个 单 输入 、 
两 阶段 (Map 和 Reduce) 的 数据 处 理 过 程 。 首 先 , MapReduce 对 具有 简单 数据 关系 .易于 
划分 的 大 规模 数据 采用 “分 而 治之 ”的 并 行 处 理 思想 ;然后 将 大 量 重复 的 数据 记录 处 理 过 
程 总 结 成 Map 和 Reduce 两 个 抽象 的 操作 ;最 后 MapReduce 提供 了 一 个 统一 的 并 行 计算 
框架 ,把 并 行 计算 所 涉及 的 诸多 系统 层 细节 都 交 给 计算 框架 去 完成 ,以 此 大 大 简化 了 程序 
员 进 行 并 行 化 程序 设计 的 负担 。 

MapReduce 的 简单 易 用 性 使 其 成 为 目前 大 数据 处 理 最 为 成 功 、 最 广 为 接 受 使 用 的 主 
流 并 行 计算 模式 。 在 开源 社区 的 努力 下 ,开源 的 Hadoop 系统 目前 已 发 展 成 为 较为 成 熟 
的 大 数据 处 理 平台 ,并 已 发 展 成 一 个 包括 众多 数据 处 理工 具 和 环境 的 完整 的 生态 系统 。 
目前 几乎 国内 外 的 各 个 著名 IT 企业 都 在 使 用 Hadoop 平台 进行 企业 内 大 数据 的 计算 处 
理 。Spark 也 是 一 个 批 处 理 系 统 , 其 性 能 方面 比 Hadoop MapReduce 有 很 大 的 提升 ,但 是 
其 易 用 性 方面 目前 仍 不 如 Hadoop MapReduce。 

3) 流 式 计算 模式 与 典型 系统 

流 式 计算 是 一 种 高 实时 性 的 计算 模式 ,需要 对 一 定时 间 窗 口内 应 用 系统 产生 的 新 数 
据 完成 实时 的 计算 处 理 ,避免 造成 数据 堆积 和 丢失 。 很 多 行业 的 大 数据 应 用 ,如 电信 、 电 
力 . 道 路 监控 等 行业 应 用 以 及 互联 网 行业 的 访问 日 志 处 理 , 都 同时 具有 高 流量 的 流 式 数据 
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和 大 量 积累 的 历史 数据 ,因而 在 提供 批 处 理 数据 模式 的 同时 ,系统 还 需 具备 高 实时 性 的 流 
式 计 算 能 力 。 流 式 计算 的 一 个 特点 是 数据 运动 .运算 不 动 ,不 同 的 运算 结 点 常常 绑 定 在 不 
同 的 服务 器 上 。 

Facebook 的 Scribe 和 Apache 的 Flume 都 提供 了 机 制 来 构建 日 志 数据 处 理 流 图 。 
而 更 为 通用 的 流 式 计算 系统 是 Twitter 公司 的 Storm37、Yahoo 公司 的 S4 以 及 
UCBerkeley AMPLab 的 Spark Steaming。 

4) 迭代 计算 模式 与 典型 系统 

为 了 克服 Hadoop MapReduce 难以 支持 迭代 计算 的 缺陷 ,业界 和 学 术 界 对 Hadoop 
MapReduce 进行 了 不 少 改进 研究 。HaLoop 把 迭代 控制 放 到 MapReduce 作业 执行 的 框 
架 内 部 ,并 通过 循环 敏感 的 调度 器 保证 前 次 迭代 的 Reduce 输出 和 本 次 迭代 的 Map 输入 
数据 在 同一 台 物 理 机 上 ,以 减少 迭代 间 的 数据 传输 开销 。 

iMapReduce 在 这 个 基础 上 保持 Map 和 Reduce 任务 的 持久 性 ,规避 启动 和 调度 开 
销 ; 而 Twister 在 前 两 者 的 基础 上 进一步 引入 了 可 缓存 的 Map 和 Reduce 对 象 ,利用 内 存 
计算 和 pub/sub 网 络 进行 跨 结 点 数据 传输 。 

目前 ,一 个 具有 快速 和 灵活 的 迭代 计算 能 力 的 典型 系统 是 UC Berkeley AMPLab 的 
Spark ,其 采用 了 基于 分 布 式 内 存 的 弹性 数据 集 模型 实现 快速 的 迭代 计算 。 

5) 图 计算 模式 与 典型 系统 

社交 网 络 ,Web 链接 关系 图 等 都 包含 大 量具 有 复杂 关系 的 图 数据 ,这 些 图 数据 规模 
常 达 到 数 十 亿 的 顶点 和 上 万 亿 的 边 数 。 这 样 大 的 数据 规模 和 非常 复杂 的 数据 关系 ,给 图 
数据 的 存储 管理 和 计算 分 析 带 来 了 很 大 的 技术 难题 。 用 MapReduce 计算 模式 处 理 这 种 
具有 复杂 数据 关系 的 图 数据 通常 不 能 适应 ,为 此 ,需要 引入 图 计算 模式 。 

大 规模 图 数据 处 理 首先 要 解决 数据 的 存储 管理 问题 ,通常 大 规模 图 数据 也 需要 使 用 
分 布 式 存储 方式 。 但 是 ,由 于 图 数据 的 数据 关系 很 强 ,分 布 存储 就 带 来 了 一 个 重要 的 图 划 
分 问题 (Graph Partitioning)。 在 有 效 的 图 划分 策略 下 ,大 规模 图 数据 得 以 分 布 存储 在 不 
同 结 点 上 ,并 在 每 个 结 点 上 对 本 地 子 图 进行 并 行 化 处 理 。 

与 任务 并 行 和 数据 并 行 的 概念 类 似 , 由 于 图 数据 并 行 处 理 的 特殊 性 ,人 们 提出 了 一 个 
新 的 “图 并 行 "(Graph Parallel) 的 概念 。 目 前 已 经 出 现 了 很 多 分 布 式 图 计算 系统 ,其 中 较 
为 典型 的 系统 包括 Google 公司 的 Pregel、Facebook 对 Pregel 的 开源 实现 Giraph 微软 的 
Trinity、Berkeley AMPLab 的 GraphX, 以 及 CMU 的 GraphLab 以 及 由 其 衍生 出 来 的 目 
前 性 能 最 快 的 图 数据 处 理 系统 PowerGraph 。 

6) 内 存 计 算 模式 与 典型 系统 

Hadoop MapReduce 为 大 数据 处 理 提供 了 一 个 很 好 的 平台 。 然 而 ,由 于 MapReduce 
设计 之 初 是 为 大 数据 线 下 批 处 理 而 设计 的 , 随 着 很 多 需要 高 响应 性 能 的 大 数据 查询 分 析 
计算 问题 的 出 现 ,MapReduce 其 在 计算 性 能 上 往往 难以 满足 要 求 。 随 着 内 存 价格 的 不 断 
下 降 以 及 服务 器 可 配置 的 内 存 容量 的 不 断 提高 ,用 内 存 计算 完成 高 速 的 大 数据 处 理 已 经 
成 为 大 数据 计算 的 一 个 重要 发 展 趋势 。Spark 则 是 分 布 内 存 计 算 的 一 个 典型 的 系统 ， 
SAP 公司 的 Hana 则 是 一 个 全 内 存 式 的 分 布 式 数据 库 系 统 。 
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3. 发 展 趋势 


近 几 年 来 , 随 着 大 数据 处 理 和 应 用 需求 急剧 增长 ,同时 也 由 于 大 数据 处 理 的 多 样 性 和 
复杂 性 ,针对 以 上 的 典型 的 大 数据 计算 模式 ,学 术 界 和 业界 不 断 研究 推出 新 的 或 改进 已 有 
的 计算 模式 和 系统 工具 平台 ,目前 主要 有 以 下 三 方面 的 重要 发 展 趋势 和 方向 。 

(1) 主流 的 Hadoop 平台 改进 后 将 与 其 他 计算 模式 和 平台 共存 。 由 于 MapReduce 当 
初 的 设计 目标 主要 是 针对 具有 简单 数据 关系 的 大 数据 线 下 批 处 理 , 使 得 它 在 系统 构架 和 
计算 性 能 上 存在 不 少 不 足 之 处 ,难以 适用 于 那些 具有 复杂 数据 关系 和 复杂 计算 模式 (如 迭 
代 计 算 、 图 计算 等 ) 的 大 数据 处 理 计 算 任务 。 但 尽管 如 此 ,由 于 Hadoop 生态 系统 已 发 展 
成 为 目前 最 主流 的 大 数据 处 理 平台 ,并 得 到 广泛 的 使 用 。 

考虑 到 兼容 性 ,目前 业界 和 学 术 界 并 不 会 完全 抛弃 Hadoop 平台 ,而 是 试图 不 断 改进 
和 发 展现 有 的 平台 ,增加 其 对 各 种 不 同 大 数据 处 理 问题 的 适用 性 。Hadoop 社区 正 努力 
扩展 现 有 的 计算 模式 框架 和 平台 ,以 便 能 解决 现 有 版 本 在 计算 性 能 .计算 模式 .系统 构架 
和 处 理 能 力 上 的 诸多 不 足 , 这 正 是 目前 Hadoop 2.0 新 版 本 “YARN”? 的 努力 目标 。 目 前 
不 断 有 新 的 计算 模式 和 计算 系统 出 现 , 预 计 今后 相当 长 一 段 时 间 内 ,Hadoop 平台 将 与 各 
种 新 的 计算 模式 和 系统 共存 ,并 相互 融合 ,形成 新 一 代 的 大 数据 处 理 系统 和 平台 。 

(2) 混合 计算 模式 将 成 为 满足 多 样 性 大 数据 处 理 和 应 用 需求 的 有 效 手段 。 现 实 世界 
中 大 数据 应 用 复杂 多 样 , 可 能 会 同时 包含 不 同 特征 的 数据 和 计算 ,在 这 种 情况 下 单一 的 计 
算 模式 多 半 难 以 满足 整个 应 用 的 需求 ,因此 需要 考虑 不 同 计算 模式 的 混搭 使 用 。 

混合 计算 模式 可 体现 在 两 个 层面 。 一 是 传统 并 行 计算 所 关注 的 体系 结构 与 低层 并 行 
程序 设计 语言 层面 计算 模式 的 混合 ,例如 ,在 体 结构 层 ,可 根据 大 数据 应 用 问题 的 需要 搭 
建 混合 式 的 系统 构架 ,如 MapReduce 集群 十 GPU 一 CUDA 的 混合 ,或 者 MapReduce 集 
群 十 基于 MIC(Intel Xeon Phi 众 核 协 处 理 系统 ) 的 OpenMP/MPI 的 混合 模型 。 

混合 模式 的 另 一 个 层面 是 大 数据 处 理 高 层 计算 模式 的 混合 。 比 如 ,一 个 大 数据 应 用 
可 能 同时 需要 提供 流 式 计算 模式 以 便 接受 和 处 理 大 量 流 式 数据 ,提供 基于 SQL 或 
NoSQL 的 数据 查询 分 析 能 力 以 便 进行 日 常 的 数据 查询 分 析 ,提供 线 下 批 处 理 和 迭代 计算 
已 完成 基于 机 器 学 习 的 深度 数据 挖掘 分 析 。 

一 些 大 数据 计算 任务 可 能 还 涉及 复杂 图 计算 或 者 间接 转化 为 图 计算 问题 。 因 此 ,很 
多 大 数据 处 理 问题 将 需要 混合 使 用 多 种 计算 模式 。 此 外 ,为 了 提高 计算 性 能 ,各 种 计算 模 
式 还 可 以 与 内 存 计算 模式 混合 ,实现 高 实时 性 的 大 数据 查询 和 计算 分 析 。 

混合 计算 模式 之 集大成 者 当 属 UCBerkeley AMPLab 的 Spark 系统 ,其 涵盖 了 几乎 
所 有 典型 的 大 数据 计算 模式 ,包括 迭代 计算 、 批 处 理 计 算 、 内 存 计算 、 流 式 计算 (Spark 
Streaming) ,数据 查询 分 析 计 算 (Shark) 以 及 图 计算 (GraphX)。 

Spark 提供 了 一 个 强大 的 内 存 计算 引擎 ,实现 了 优异 的 计算 性 能 ,同时 还 保持 与 
Hadoop 平台 的 兼容 性 。 因 此 , 随 着 系统 的 不 断 稳定 和 成 熟 ,Spark 有 望 成 为 与 Hadoop 
共存 的 新 一 代 大 数据 处 理 系 统 和 平台 。 

(3) 内 存 计算 将 成 为 高 实时 性 大 数据 处 理 的 重要 技术 手段 和 发 展 方向 。Hadoop 在 
处 理 大 数据 时 计算 性 能 不 高 .难以 满足 实时 性 或 高 响应 性 计算 任务 的 要 求 ,为 此 ,人 们 一 
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直 努 力 改 进 Hadoop 的 计算 性 能 。 但 是 ,在 现 有 Hadoop 平台 面向 大 数据 线 下 处 理 的 基 
本 构架 和 工作 机 制 下 ,性 能 的 改进 和 提升 空间 非常 有 限 ,难以 逾越 计算 性 能 低下 的 障碍 ; 
而 随 着 大 数据 的 规模 不 断 扩大 ,这 个 问题 将 越 来 越 为 突出 。 

为 此 ,目前 已 经 逐步 形成 一 个 基本 共识 , 即 随 着 内 存 成 本 的 不 断 降低 ,内 存 计 算 将 成 
为 最 终 跨 越 大 数据 计算 性 能 障碍 、 实 现 高 实时 高 响应 计算 的 一 个 最 有 效 技术 手段 。 因 此 ， 
目前 越 来 越 多 的 研究 者 和 开发 者 在 关注 基于 内 存 计算 的 大 数据 处 理 技术 ,不 断 推出 各 种 
基于 内 存 计算 的 计算 模式 和 系统 。 

内 存 计算 是 一 种 在 体系 结构 层面 上 的 解决 方法 ,因此 , 它 可 以 与 各 种 不 同 的 计算 模式 
相 结合 ,从 基本 的 数据 查询 分 析 计 算 ,到 批 处 理 和 流 式 计算 ,再 到 迭代 计算 和 图 计算 ,都 可 
以 基于 内 存 计 算 加 以 实现 ,因此 我 们 可 以 看 到 各 种 大 数据 计算 模式 下 都 有 基于 内 存 计算 
实现 的 系统 ,比较 典型 的 系统 包括 SAP 的 Hana 内 存 数据 库 、 微 软 的 图 数据 计算 系统 
Trinity、UC Berkeley AMPLab 的 Spark 等 。 

由 于 优异 的 计算 性 能 ,内 存 计算 将 成 为 今后 高 实时 性 大 数据 处 理 的 重要 技术 手段 和 
发 展 方向 。 


10.5 大 数据 分 析 与 挖掘 技术 发 展 前 景 


1. 问题 与 挑战 

在 大 数据 时 代 ,不 同 领域 不 同 格式 的 数据 从 生活 的 各 个 领域 涌现 出 来 。 大 数据 往往 
含有 噪声 ,具有 动态 异 构 性 ,是 相互 关联 和 不 可 信 的 。 尽 管 含有 噪声 ,大 数据 往往 比 小 样 
本 数据 更 有 价值 。 这 是 因为 从 频繁 模式 和 相关 性 分 析 得 到 的 一 般 统计 量 通 常会 克服 个 体 
的 波动 ,会 发 现 更 多 可 靠 的 隐藏 的 模式 和 知识 。 另 一 方面 ,互相 连接 的 大 数据 形成 大 型 异 
构 信息 网 。 通 过 信息 网 , 宛 余 的 信息 可 用 于 弥补 数据 缺失 所 带 来 的 损失 ,可 用 于 交叉 核对 
数据 的 不 一 致 性 ,进一步 验证 数据 间 的 可 信 关 系 , 并 发 现 数据 中 隐藏 的 关系 和 模型 。 

数据 挖掘 需要 集成 的 、 经 过 清洗 的 、 可 信 的 、 可 高 效 访问 的 数据 ,需要 描述 性 查询 和 控 
掘 界面 ,需要 可 扩展 的 挖掘 算法 以 及 大 数据 计算 环境 。 与 此 同时 ,数据 挖掘 本 身 也 可 以 用 
来 提高 数据 质量 和 可 信 度 ,帮助 理解 数据 的 语义 ,提供 智能 的 查询 功能 。 只 有 能 够 鲁 棒 地 
进行 大 数据 分 析 , 大 数据 的 价值 才能 发 挥 出 来 。 另 一 方面 ,从 大 数据 得 出 的 知识 有 助 于 纠 
正 错 误 ,并 消除 歧义 。 

大 数据 环境 下 的 分 析 和 挖掘 方法 与 传统 的 小 样本 统计 分 析 有 着 根本 的 不 同 ,并 面临 
如 下 挑战 : 

1) 数据 量 的 膨胀 

随 着 数据 生成 的 自动 化 以 及 数据 生成 速度 的 加 快 ,数据 分 析 需 要 处 理 的 数据 量 急剧 
膨胀 。 一 种 处 理 大 数据 的 方法 是 使 用 采样 技术 ,通过 采样 ,可 以 把 数据 规模 变 小 ,以 便利 
用 现 有 的 技术 手段 进行 数据 管理 和 分 析 。 

然而 在 某 些 应 用 领域 ,采样 将 导致 信息 的 丢失 ,比如 DNA 分 析 等 。 在 明细 数据 上 进 
行 分 析 , 意 味 着 需要 分 析 的 数据 量 将 急剧 膨胀 和 增长 。 如 何 对 TB 级 的 大 数据 进行 分 析 
是 一 大 挑战 。 
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2) 数据 深度 分 析 需 求 的 增长 

为 了 从 数据 中 发 现 知识 并 加 以 利用 进而 指导 人 们 的 决策 ,必须 对 大 数据 进行 深入 的 
分 析 ,而 不 是 仅仅 生成 简单 的 报表 。 这 些 复杂 的 分 析 必 须 依 赖 于 复杂 的 分 析 模 型 ,很 难 用 
SQL 来 进行 表达 ,统称 为 深度 分 析 。 人 们 不 仅 需要 通过 数据 了 解 现在 发 生 了 什么 ,更 需 
要 利用 数据 对 将 要 发 生 什 么 进行 预测 ,以 便 在 行动 上 做 出 一 些 主动 的 准备 。 

比如 通过 预测 客户 的 流失 预先 采取 行动 ,对 客户 进行 挽留 。 这 里 ,典型 的 OLAP 数 
据 分 析 操作 (对 数据 进行 聚集 \ 汇 总、 切片 和 旋转 等 ) 已 经 不 够 用 ,还 需要 路 径 分 析 、 时 间 序 
列 分 析 、 图 分 析 、What-if 分 析 以 及 由 于 硬件 /软件 限制 而 未 曾 尝试 过 的 复杂 统计 分 析 模 
型 等 。 

3) 自动 化 、 可 视 化 分 析 需 求 的 出 现 

因为 数据 规模 很 大 ,要 对 大 数据 进行 有 效 分 析 , 分 析 过 程 需 要 按照 完全 自动 化 的 方式 
进行 。 这 就 要 求 计算 机 能 够 理解 数据 在 结构 上 的 差异 ,明白 数据 所 要 表达 的 语义 ,然后 
“机 械 ” 地 进行 分 析 。 

对 大 数据 分 析 来 说 ,设计 一 个 好 的 适 于 分 析 的 数据 表示 模式 是 非常 重要 的 。 此 外 ,大 
数据 也 使 下 一 代 可 实时 应 答 的 交互 式 数 据 分 析 成 为 可 能 。 将 来 ,系统 应 该 能 够 根据 网 站 
的 内 容 自动 构造 查询 ,自动 提供 热门 推荐 ,自动 分 析 数 据 的 价值 并 决定 是 否 需要 保存 。 目 
前 ,在 保证 交互 式 响应 的 同时 如 何 进行 TB 级 的 复杂 查询 处 理 已 成 为 一 个 重要 的 研究 
课题 。 

2. 主要 进展 


针对 上 面 提 到 的 挑战 ,研究 者 提出 了 一 些 试验 性 的 解决 方法 和 途径 ,其 中 的 许多 方法 
具有 一 定 的 实际 应 用 价值 。 例 如 ,针对 传统 分 析 软 件 扩展 性 差 以 及 Hadoop 分 析 功 能 薄 
弱 的 特点 ,IBM 公司 的 研究 人 员 致 力 于 对 R 和 Hadoop 进行 集成 。R 是 开源 的 统计 分 析 
软件 ,通过 R 和 Hadoop 的 深度 集成 ,把 计算 推 向 数据 并 且 并 行 处 理 ,使 Hadoop 获得 了 
强大 的 深度 分 析 能 力 。 另 有 研究 者 实现 了 Weka( 类 似 于 R 的 开源 的 机 器 学 习 和 数据 挖 
据 工 具 软 件 ) 和 MapReduce 的 集成 。 

标准 版 Weka 工具 只 能 在 单机 上 运行 ,并 且 不 能 超越 1GB 内 存 的 限制 。 经 过 算法 的 
并 行 化 ,在 MapReduce 集群 上 , Weka 不 仅 突 破 了 原 有 的 可 处 理 数据 量 的 限制 ,轻松 地 对 
超过 100GB 的 数据 进行 分 析 , 同 时 利用 并 行 计算 提高 了 性 能 。 经 过 改造 的 Weka, 赋 予 了 
MapReduce 技术 深度 分 析 的 能 力 。 

另 有 开发 者 发 起 了 Apache Mahout 项 目的 研究 ,该 项 目 是 基于 Hadoop 平台 的 大 规 
模 数据 集 上 的 机 器 学 习 和 数据 挖掘 开 源 程序 库 , 为 应 用 开发 者 提供 了 丰富 的 数据 分 析 
功能 。 

针对 频繁 模式 挖掘 .分 类 和 聚 类 等 传统 的 数据 挖掘 任务 ,研究 人 员 也 提出 了 相应 的 大 
数据 解决 方案 。 如 ,Iris Miliaraki 等 人 提出 了 一 种 可 扩展 的 在 MapReduce 框架 下 进行 频 
繁 序列 模式 挖掘 的 算法 ,Alina Ene 等 人 用 MapReduce 实现 了 大 规模 数据 下 的 k-center 
和 A-median 聚 类 方法 ,Kai-Wei Chang 等 人 提出 了 针对 线性 分 类 模型 的 大 数据 分 类 方 
法 。U Kang 等 人 使 用 Belief Propagation 算法 (简称 BP) 处 理 大 规模 图 数据 发 气 异 常 
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模式 。 

男 有 一 些 研究 针对 大 规模 图 数据 进行 分 析 。Jayanta Mondal 等 人 提出 了 一 个 基于 内 
存 的 分 布 式 数据 管理 系统 来 管理 大 规模 动态 变化 的 图 以 支持 低 延 迟 的 查询 处 理 方法 , 提 
出 了 一 种 混合 的 复制 (replication) 策 略 来 检测 结 点 读 写 的 频率 从 而 动态 的 决定 哪些 数据 
需要 复制 (replication) 。Shengqi Yang 等 人 对 基于 集群 上 的 大 规模 图 数据 管理 和 局 部 图 
的 访问 特征 (广度 优先 查询 和 随机 游 走 等 ) 进 行 研 究 , 为 了 在 图 查询 处 理 中 减少 机 器 间 的 
通信 ,提出 来 分 布 式 图 数据 环境 ,同时 提出 了 两 级 别 划分 管理 架构 。Jiewen Huang 等 人 
提出 了 一 个 多 结 点 的 可 扩展 RDF 数据 管理 系统 , 比 目 前 系统 的 效率 高 出 三 个 数量 级 。 


3. 发 展 趋势 


1) 更 加 复杂 、 更 大 规模 的 分 析 和 挖掘 

在 大 数据 新 型 计算 模式 上 实现 更 加 复杂 和 更 大 规模 的 分 析 和 挖掘 是 大 数据 未 来 发 展 
的 必然 趋势 。 例 如 ,需要 进行 更 细 粒 度 的 仿真 时间 序列 分 析 、 大 规模 图 分 析 和 大 规模 社 
会 计算 等 等 。 另 一 方面 ,在 大 数据 上 进行 复杂 的 分 析 和 挖掘 ,需要 灵活 的 开发 .调试 ,管理 
等 工具 的 支持 。 

2) 大 数据 的 实时 分 析 和 挖掘 

面 对 大 数据 ,分 析 和 挖掘 的 效率 成 为 此 类 大 数据 应 用 的 巨大 挑战 。 尽 管 可 以 利用 大 
规模 集群 并 行 计算 ,以 MapReduce 为 代表 的 并 行 计算 模型 并 不 适合 高 性 能 的 处 理 结构 化 
数据 的 复杂 查询 分 析 。 在 数 十 TB 以 上 的 数据 规模 上 ,分 析 和 发 掘 的 实时 性 受到 了 严峻 
的 挑战 ,是 目前 尚未 彻底 解决 的 问题 。 而 查询 和 分 析 的 实时 处 理 能 力 , 对 于 人 们 及 时 获得 
决策 信息 ,做 出 有 效 反应 是 非常 关键 的 前 提 。 

3) 大 数据 分 析 和 挖掘 的 基准 测试 

各 种 大 数据 分 析 和 挖掘 系统 各 有 所 长 ,其 在 不 同类 型 分 析 挖 掘 下 ,会 表现 出 非常 不 同 
的 性 能 差异 。 目 前 迫切 需要 通过 基准 测试 ,了 解 各 种 大 数据 分 析 和 挖掘 系统 的 优 缺 点 ,以 
明确 能 够 有 效 支持 大 数据 实时 分 析 和 挖掘 的 关键 技术 ,从 而 有 针对 性 地 进行 深入 研究 。 


10.6 大 数据 可 视 化 分 析 技 术 发 展 前 景 


1. 问题 与 挑战 


在 大 数据 时 代 , 数 据 的 数量 和 复杂 度 的 提高 带 来 了 对 数据 探索 ,分 析 、 理 解 和 呈现 的 
巨大 挑战 。 除 了 直接 的 统计 或 者 数据 挖掘 的 方式 ,可 视 化 通过 交互 式 视觉 表现 的 方式 来 
帮助 人 们 探索 和 解释 复杂 的 数据 。 一 个 典型 的 可 视 化 流程 是 首先 将 数据 通过 软件 程序 系 
统 转化 为 用 户 可 以 观察 分 析 的 图 像 。 

利用 人 类 视觉 系统 高 通 量 的 特性 ,用 户 通 过 视觉 系统 ,结合 自己 的 背景 知识 ,对 可 视 
化 结果 图 像 进行 认 知 , 从 而 理解 和 分 析 数 据 的 内 涵 与 特征 。 同 时 ,用 户 还 可 以 交互 地 改变 
可 视 化 程序 系统 的 设置 ,改变 输出 的 可 视 化 图 像 , 获 得 对 数据 的 不 同 侧面 的 理解 。 因 此 可 
视 化 是 一 个 交互 与 循环 往复 的 过 程 ,如 图 10. 3 所 示 。 

可 视 化 能 够 迅速 和 有 效 地 简化 与 提炼 数据 流 ,帮助 用 户 交互 筛选 大 量 的 数据 ,可 视 化 
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数据 (Data) 可 视 化 (Visualization) 用 户 (User) 
10.3 可视化 流程 


所 提供 的 洞察 力 有 助 于 使 用 者 更 快 更 好 地 从 复杂 数据 中 得 到 新 的 发 现 ,这 使 得 可 视 化 成 
为 数据 科学 中 不 可 或 缺 的 重要 部 分 。 人 类 对 于 数据 对 象 通过 作 图 的 方式 帮助 理解 分 析 古 
已 有 之 。 例 如 古人 的 地 图 和 星 图 ,早期 物理 学 家 对 实验 结果 的 绘图 。 现 代 意义 上 的 可 视 
化 源 自 于 计算 机 技术 的 发 展 ,首先 是 对 于 科学 数据 的 可 视 化 ,其 后 扩展 到 更 广泛 的 信息 可 
视 化 。 进 入 21 世纪 后 , 随 着 反 恺 等 需求 ,对 于 海量 复杂 数据 的 分 析 进 一 步 催 生 了 可 视 分 
析 ,通过 可 视界 面 , 结 合 人 机 交互 和 背景 自动 数据 分 析 挖 掘 ,对 海量 复杂 数据 开展 分 析 。 


2. 主要 进展 


在 可 视 化 的 发 展 中 ,首先 面 对 大 规模 数据 挑战 的 是 在 科学 可 视 化 方向 。 高 通 量 仪器 
设备 ,模拟 计算 以 及 互联 网 应 用 等 都 在 快速 产生 着 庞大 的 数据 ,对 TB 乃至 PB 量 级 数据 
的 分 析 和 可 视 化 成 为 现实 的 挑战 。 大 规模 数据 的 可 视 化 和 绘制 主要 是 基于 并 行 算 法 设计 
的 技术 ,合理 利用 有 限 的 计算 资源 ,高 效 地 处 理 和 分 析 特 定数 据 集 的 特性 。 很 多 情况 下 ， 
大 规模 数据 可 视 化 的 技术 通常 会 结合 多 分 辨 率 表 示 等 方法 ,以 获得 足够 的 互动 性 能 。 在 
科学 大 规模 数据 的 并 行 可 视 化 工作 中 ,主要 涉及 数据 流 线 化 (Data Streaming) 任务 并 行 
化 (Task Parallelism)、 管道 并 行 化 (Pipeline Parallelism) 和 数据 并 行 化 (Data 
Parallelism) 四 种 基本 技术 。 

数据 流 线 化 将 大 数据 分 为 相互 独立 的 子 块 后 依次 处 理 。 在 数据 规模 远 远 大 于 计算 资 
源 时 是 主要 的 一 类 可 视 化 手段 。 它 能 够 处 理 任意 大 规模 的 数据 ,同时 也 可 能 提供 更 有 效 
的 缓存 使 用 效率 ,并 减少 内 存 交 换 。 但 通常 这 类 方法 需要 较 长 的 处 理 时 间 ,难以 提供 对 数 
据 的 交互 挖掘 。 离 核 泻 染 是 数据 流 线 化 的 一 种 重要 形式 。 在 另外 一 些 情况 下 ,数据 则 是 
以 流 的 形式 实时 逐步 获得 ,必须 要 有 能 够 适应 数据 涌现 形式 的 可 视 化 方法 。 

任务 并 行 化 是 把 多 个 独立 的 任务 模块 平行 处 理 。 这 类 方法 要 求 将 一 个 算法 分 解 为 多 
个 独立 的 子 任务 ,并 需要 相应 的 多 重 计算 资源 。 其 并 行程 度 主要 受 限于 算法 的 可 分 解 粒 
度 以 及 计算 资源 中 结 点 的 数目 。 管 道 并 行 化 则 是 同时 处 理 各 自 面向 不 同 数据 子 块 的 多 个 
独立 的 任务 模块 。 以 上 任务 并 行 化 和 管道 并 行 化 两 类 方法 ,如 何 达 到 负载 的 平衡 是 实现 
高 效 分 析 的 关键 难点 。 

数据 并 行 化 是 将 数据 分 块 后 进行 平行 处 理 , 通 常 称 为 单程 序 多 数据 流 (SPMD) 模 式 。 
这 类 方法 能 达到 高 度 的 平行 化 ,并 且 在 计算 结 点 增加 的 时 候 可 以 获得 较 好 的 可 扩展 性 。 
对 于 非常 大 规模 的 并 行 可 视 化 , 结 点 之 间 的 通信 往往 是 制约 因素 ,提供 合理 的 通信 模式 是 
高 效 结果 的 关键 ,而 提高 数据 的 本 地 性 也 可 以 大 大 提高 效率 。 以 上 这 些 技术 往往 在 实践 
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中 相互 结合 ,从 而 构建 一 个 更 高 效 的 解决 方法 。 

在 信息 可 视 化 和 可 视 分 析 方 面 ,相对 对 大 规模 数据 的 处 理 , 其 出 现 的 相应 要 晚 得 多 。 
很 多 技术 ,例如 多 维 数据 可 视 化 中 的 平行 坐标 、 多 尺度 分 析 、 散 点 图 矩阵 、 层 次 数据 可 视 化 
中 的 树 图 .图 可 视 化 中 的 多 种 布局 算法 ,文本 可 视 化 的 一 些 基本 方法 ,并 不 是 都 有 很 好 的 
可 扩展 性 。 在 面 对 大 数据 挑战 的 可 视 化 中 ,需要 做 出 相应 的 调整 。 

传统 对 网 络 数据 的 可 视 化 可 以 通过 图 的 形式 实现 ,这 是 将 网 络 中 的 每 个 结 点 简化 为 
图 中 的 结 点 ,网 络 中 的 联系 可 视 化 为 图 中 的 边 , 这 样 网 络 数据 的 可 视 化 可 以 通过 经 典 的 结 
点 - 边 的 形式 表现 。 这 类 可 视 化 方法 的 难点 主要 在 于 图 的 排 布 算法 。 有 效 的 图 布局 应 该 
能 够 直观 地 揭示 结 点 之 间 的 联系 ,类 似 地 ,相互 联系 紧密 的 结 点 会 聚集 在 一 起 。 但 是 现在 
大 规模 的 网 络 数据 的 结 点 可 能 高 达 数 百 万 ,其 边 可 能 高 达 数 亿 , 这 样 的 网 络 数 据 难 以 使 用 
传统 的 图 可 视 化 方法 可 视 化 。 

高 维 信息 可 以 通过 维度 压缩 .平行 坐标 等 手段 实现 可 视 化 。 但 是 在 数据 达到 一 定 
规模 以 后 ,这样 的 方法 并 不 能 很 好 地 扩展 。 一 些 可 能 的 方案 包括 提供 一 些 子 空间 的 选 
择 ,用户 可 以 根据 分 析 需 要 ,在 高 维度 空间 选择 适合 问题 解决 的 子 空 间 , 从 而 缩小 数据 
规模 。 

图 形 硬件 对 于 大 规模 数据 可 视 化 具有 重要 意义 。 最 新 的 超级 计算 机 大 量 地 应 用 
GPU 作为 计算 单元 。 如 何 更 好 地 发 掘 最 新 的 图 形 硬件 潜力 ,提供 更 加 灵活 的 大 数据 可 视 
化 和 绘制 的 解决 方法 是 具有 重大 意义 的 课题 。 

3. 发 展 趋势 

面 对 大 数据 ,结合 国际 学 者 的 各 种 观点 ,相应 的 大 数据 可 视 化 与 分 析 也 面临 着 各 种 
挑战 。 

1) 原 位 分 析 (In Situ Analysis) 

传统 的 可 视 化 方式 是 先 将 数据 存储 于 磁盘 ,然后 根据 可 视 化 的 需要 进行 读 取 分 析 。 
这 一 种 处 理 方式 对 于 超过 一 定量 级 的 数据 来 说 并 不 适合 。 最 初 是 为 了 应 对 超大 规模 的 超 
级 计算 机 计算 获得 的 大 量 科学 数据 产生 的 挑战 。 科 学 家 提出 了 原 位 可 视 分 析 的 概念 ,在 
数据 仍 在 内 存 中 时 就 会 做 尽 可 能 多 的 分 析 。 

对 数据 进行 一 定 的 可 视 化 (同时 也 是 数据 规模 的 简化 ) ,能 极 大 地 减少 IO 的 开销 ， 
只 有 极 少 数 的 视觉 投影 后 的 次 生 数 据 需 要 转移 到 显示 平台 。 这 个 方法 可 以 实现 数据 使 用 
与 磁盘 读 取 比例 的 最 大 化 ,从 而 最 大 限度 地 克服 1/O 的 瓶颈 限制 。 

然而 , 它 也 带 来 了 一 系列 设计 与 实现 上 的 挑战 ,包括 交互 分 析 、 算 法 ,内存 .I/O., 工 作 
流 和 线程 的 相关 问题 。 原 位 分 析 要 求 可 视 化 方案 和 计算 紧密 结合 ,这 样 很 多 传统 的 可 视 
化 方法 需要 进行 修改 或 者 筛选 才 可 以 用 于 这 样 的 可 视 化 模式 。 由 于 可 视 化 的 一 部 分 处 理 
在 计算 核 点 上 进行 ,那样 就 会 对 可 以 进行 的 处 理 方案 有 所 限制 。 

2) 大 数据 可 视 化 中 的 人 机 交互 

在 可 视 化 和 可 视 分 析 中 用 户 界面 与 交互 设计 扮演 着 越 来 越 重要 的 角色 。 用 户 必 须 通 
过 合理 的 交互 方式 , 才 可 以 有 效 地 探索 发 现 数据 中 的 隐 含 信息 ,进行 可 视 推 理 ,通过 意义 
构建 ,获得 新 的 认 知 。 然 而 尽管 数据 规模 和 机 器 的 计算 能 力 都 在 持续 快速 地 增长 , 千 百 年 
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来 ,人 的 认 知 能 力 却 是 始终 不 变 的 。 以 人 为 中 心 的 用 户 界 面 与 交互 设计 面临 的 挑战 是 复 
杂 和 多 层次 的 ,并 且 在 不 同 领域 都 有 交 丢 。 

机 器 自动 处 理 系统 对 于 一 些 需要 人 类 参与 判断 的 分 析 过 程 往往 表现 不 佳 。 其 他 的 挑 
战 则 源 于 人 的 认 知 能 力 , 现 有 技术 不 足以 让 人 的 认 知 能 力 发 挥 到 极限 。 我 们 需要 提供 更 
好 的 人 机 交互 界面 和 设计 ,方便 使 用 者 ,特别 是 专家 用 户 能 够 最 大 程度 地 发 挥 其 背景 知 
识 , 在 数据 的 分 析 中 扮演 更 加 积极 的 角色 。 从 更 广泛 的 意义 上 说 ,可 视 化 可 以 建立 一 个 可 
视 的 交互 界面 ,提供 人 和 数据 的 对 话 。 

3) 协同 与 众 包 可 视 分 析 

在 大 数据 时 代 , 个 人 或 者 少数 几 个 分 析 用 户 可 能 无 法 面 对 数 据 规模 和 复杂 度 带 来 的 
挑战 。 大 数据 分 析 中 往往 会 设计 多 种 不 同 来 源 甚至 领域 的 数据 。 利 用 众人 的 智慧 ,通过 
众 包 等 模式 进行 有 效 的 复杂 可 视 化 成 为 一 种 必然 的 选择 。 在 众 包 可 视 化 工作 中 ,如 何 设 
计 合理 高 效 的 可 视 化 平台 ,承载 相应 的 复杂 高 难度 的 可 视 化 系统 工作 ;如 何 设计 交互 的 中 
间 模 式 ,支持 多 用 户 的 协调 工作 ;如 何 反 映 多 用 户 的 差别 ,都 是 可 以 研究 的 课题 。 和 协同 
的 可 视 分 析 方 式 比较 ,协同 可 视 化 趋 于 少数 的 几 个 领域 专家 交互 合作 开展 对 数据 的 可 视 
分 析 , 众 包 可 视 化 则 更 趋向 不 特定 多 数 的 使 用 者 ,规模 也 更 大 。 如 何 开展 有 效 的 众 包 和 协 
同 可 视 化 ,是 非常 重要 的 研究 课题 。 

4) 可 扩展 性 与 多 级 层次 问题 

在 大 规模 数据 可 视 分 析 的 可 扩展 性 问题 上 ,建立 多 级 层次 是 主流 的 解决 办 法 。 这 种 
方法 可 以 通过 建立 不 同 大 小 的 层面 ,向 用 户 提供 在 不 用 解析 度 下 的 数据 浏览 分 析 能 力 。 
但 是 当 数据 量 增 大 时 ,层级 的 深度 与 复杂 性 也 随 之 增 大 。 在 继承 关系 复杂 且 深 度 大 的 层 
次 关系 中 巡游 与 搜索 最 优 解 是 可 扩展 性 分 析 的 主要 挑战 。 

5) 不 确定 性 分 析 和 敏感 性 分 析 

不 确定 性 的 量化 问题 可 以 追溯 到 由 实验 测量 产生 数据 的 时 代 。 如 今 ,如何 量 化 不 确 
定性 已 经 成 为 许多 领域 的 重要 问题 。 了 解数 据 中 不 确定 性 的 来 源 对 于 决策 和 风险 分 析 十 
分 重要 。 随 着 数据 规模 增 大 ,直接 处 理 整个 数据 集 的 能 力也 受到 了 极 大 的 限制 。 许 多 数 
据 分 析 任务 中 引入 数据 的 不 确定 性 。 不 确定 性 的 量化 及 可 视 化 对 未 来 的 大 数据 可 视 分析 
工具 而 言 极端 重要 ,我 们 必须 发 展 可 应 对 不 完整 数据 的 分 析 方 法 ,许多 现 有 算法 必须 重新 
设计 ,进而 考虑 数据 的 分 布 情况 。 

一 些 新 兴 的 可 视 化 技术 会 提供 一 个 不 确定 性 的 直观 视图 ,来 帮助 用 户 了 解 风险 ,从 而 
帮助 用 户 选择 正确 的 参数 ,减少 产生 误导 性 结果 的 可 能 。 从 这 个 方面 来 看 ,不 确定 性 的 量 
化 与 可 视 化 将 成 为 绝 大 多 数 可 视 分 析 任务 的 核心 部 分 。 

另 一 方面 ,对 于 可 视 化 而 言 , 用 户 的 交互 或 者 新 的 参数 的 输入 ,都 会 导致 不 同 可 视 化 
结果 的 出 现 。 在 大 数据 的 情况 下 ,向 用 户 提供 背景 知识 ,告知 预期 的 操作 可 能 引发 的 可 视 
化 结果 的 变化 程度 ,或 者 用 户 当前 所 在 参数 空间 的 周边 状况 ,这 一 些 都 属于 对 可 视 分 析 结 
果 的 敏感 性 分 析 , 对 于 高 效 的 可 视 化 交互 是 极端 重要 的 。 

6) 可 视 化 与 自动 数据 计算 挖掘 的 结合 

可 视 化 提供 了 用 户 对 数据 的 直观 分 析 , 用 户 可 以 通过 交互 界面 对 数据 进行 分 析 了 解 。 
同时 ,我们 要 注意 到 很 多 的 数据 分 析 是 批量 的 。 如 何 能 够 将 一 些 比较 确定 的 分 析 任 务 利 
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用 机 器 自动 完成 ,同时 引导 用 户 来 进行 更 具有 挑战 性 的 可 视 分 析 工 作 , 是 可 视 分 析 发 展 中 
的 核心 课题 。 

7) 面向 领域 和 大 众 的 可 视 化 工具 库 

提供 相应 的 工具 库 可 以 大 大 提高 不 同 领域 分 析 数 据 的 能 力 。 大 数据 时 代 涌 现 并 推动 
了 很 多 可 视 化 商业 化 的 机 会 。Tabealu 的 成 功 上 市 反映 了 市 场 对 可 视 化 工具 的 需求 。 类 
似 IBM Manyeyes 这 样 在 线 可 视 化 工具 的 流行 , 则 表明 在 一 定 程度 上 满足 了 广大 普通 用 
户 对 可 视 化 方法 的 需求 。 国 际 的 几 个 大 公司 也 在 开展 相应 的 研究 ,企图 把 可 视 化 引入 其 
不 同 的 数据 分 析 和 展示 的 产品 中 。 

各 种 可 能 相关 的 商品 也 将 会 不 断 出 现 ,对 可 视 化 服务 的 商业 需求 将 是 未 来 的 一 个 最 
大 方向 。 


10.7 大 数据 隐私 与 安全 技术 发 展 前 景 


1. 问题 与 挑战 


隐私 是 当事人 不 愿意 被 他 人 知道 或 他 人 不 便 知道 的 敏感 信息 , 它 与 公共 利益 ,群体 利 
益 无 关 , 具 有 隐藏 特性 。 安 全 是 指 不 受 威 胁 , 没 有 危险 ,危害 ,损失 。 信 息 安全 是 指 采取 技 
术 和 管理 的 安全 保护 手段 ,保护 软 硬 件 与 数据 不 因 偶然 的 或 恶意 的 原因 而 遭 到 破坏 .更 

在 大 数据 时 代 , 传 统 的 隐私 数据 内 涵 与 外 延 有 了 巨大 突破 与 延伸 ,隐私 数据 保护 不 力 
所 造成 的 恕 慌 已 不 能 由 个 人 或 团体 和 承受 ,隐私 数据 保护 技术 面临 更 多 的 挑战 。 大 数据 时 
代 下 的 隐私 数据 保护 与 安全 体系 除 涉及 技术 .管理 外 ,还 涉及 法 律 、 人 伦 、 生 物 , 道 德 商 业 
利益 、 生 活 方式 等 ;不 只 是 团体 或 区 域 ,还 涉及 国家 安全 与 国际 秩序 。 隐 私 数据 泄露 影响 
的 波及 面 很 可 能 会 突破 个 人 、 团 体 或 区 域 的 限制 ,发 展 到 全 球 性 影响 。 

从 本 质 上 来 说 ,大 数据 的 安全 与 隐私 问题 就 是 我 们 要 能 够 在 大 数据 时 代 兼 顾 安 全 与 
自由 ,个 性 化 服务 与 商业 利益 ,国家 安全 与 个 人 隐私 的 基础 上 ,从 数据 中 挖掘 其 潜在 的 巨 
大 商业 价值 和 学 术 价值 ,并 使 其 研究 成 果真 正 地 服务 于 社会 。 

在 大 数据 时 代 , 随 着 人 们 对 大 数据 的 进一步 认识 和 研究 ,呈现 出 的 安全 隐私 挑战 体现 
几 个 方面 : 

(1) 大 数据 时 代 的 安全 与 传统 安全 相 比 , 变 得 更 加 复杂 。 

一 方面 ,大 量 的 数据 汇集 ,包括 大 量 的 企业 运营 数据 ,客户 信息 ,个 人 的 隐私 和 各 种 行 
为 的 细节 记录 。 这 些 数据 的 集中 存储 增加 了 数据 泄露 风险 ,而 这 些 数据 不 被 滥用 ,也 成 为 
人 身 安全 的 一 部 分 。 另 一 方面 ,大 数据 对 数据 完整 性 、 可 用 性 和 秘密 性 带 来 挑战 ,在 防止 
数据 丢失 、 被 瓷 取 和 被 破坏 上 存在 一 定 的 技术 难度 ,传统 的 安全 工具 不 青 像 以 前 那么 
有 用 。 

(2) 使 用 数据 过 程 中 的 安全 问题 。 

用 数据 挖掘 和 数据 分 析 获 取 商 业 价值 的 时 候 ,黑客 也 可 以 利用 大 数据 分 析 向 企业 发 
起 攻击 。 黑客 可 能 会 最 大 限度 地 收集 有 用 信息 ,如 社交 网 络 、 邮 件 、 微 博 、 电 子 商务 、 电 话 
和 家 庭 住址 等 ,使 得 数据 安全 局 面 异常 严峻 。 
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(3) 对 大 数据 分 析 较 高 的 企业 和 团体 ,面临 更 多 的 安全 挑战 。 

对 于 电子 商务 金融、 天气 预报 的 分 析 预 测 、 复 杂 网 络 计算 和 广域网 感知 等 领域 ,恶意 
攻击 会 造成 更 会 严重 的 后 果 。 

(4) 基于 位 置 的 隐私 数据 暴露 严重 。 

随 着 个 体 用 户 的 移动 设备 ,如 手机 移动 GPS 设备 等 的 广泛 使 用 ,以 及 通过 一 些 网 站 
获取 用 户 位 置信 息 等 可 以 很 容易 得 到 用 户 的 移动 轨迹 。 而 根据 研究 发 现 ,用 户 的 移动 模 
式 和 用 户 身份 识别 之 间 有 着 强烈 的 对 应 关系 ,使 得 用 户 的 隐私 很 容易 暴露 。 同 时 ,用 户 的 
位 置信 息 保 护 比 用 户 的 身份 信息 保护 更 具有 挑战 性 ,因为 我 们 在 获取 数据 时 要 保证 较 高 
的 精度 。 

(5) 缺乏 相关 的 法 律 法 规 保证 。 

目前 为 止 ,还 没有 严格 的 法 律 法 规 来 保证 用 户 的 数据 隐私 安全 。 特 别 是 一 些 涉及 用 
户 敏感 数据 的 一 些 记录 ,而 这 些 数据 也 容易 被 一 些 非 法 和 不 道德 组 织 或 个 体 使 用 ,对 用 户 
和 社会 造成 严重 的 影响 和 损失 ,例如 ,频繁 发 生 的 互联 网 公司 数据 库 泄露 事件 ,特别 是 
2013 年 曝光 的 美国 国家 安全 局 “棱镜 计划 ?监听 项 目 。 

(6) 大 数据 的 共享 问题 。 

共享 问题 的 主要 本 质 是 数据 的 加 密 性 和 数据 的 有 效 性 之 间 的 矛盾 。 从 社会 应 用 角度 
考虑 ,我 们 会 尽 可 能 提高 数据 的 获取 技术 ,以 保证 数据 的 有 效 性 ,而 从 保护 用 户 隐私 的 角 
度 考虑 ,我 们 有 必要 对 数据 进行 相关 操作 以 降低 获取 数据 的 敏感 性 ,从 而 造成 了 两 者 之 间 
的 矛盾 ,两 者 之 间 如 何 进行 最 佳 折 中 确实 非常 困难 。 

(7) 真实 数据 的 动态 性 变化 。 

具有 真实 性 的 大 数据 随 着 时 间 呈 现 出 动态 变化 性 ,使 得 我 们 对 于 大 数据 的 分 析 计算 
提出 了 一 些 新 的 方法 和 技术 ,因而 在 处 理 时 将 面 对 更 为 复杂 的 形式 ,加 大 了 大 数据 安全 隐 
私 保护 的 困难 。 

(8) 多 元 数据 的 融合 挑战 。 

大 数据 来 自 于 生活 ,学 术 .商业 等 各 个 方面 ,而 数据 之 间 的 彼此 相关 性 ,使 得 数据 的 安 
全 隐私 保护 更 为 复杂 ,如 何在 多 元 数据 融合 的 大 趋势 下 保证 用 户 的 隐私 不 被 泄露 是 一 项 
重大 挑战 。 

2. 主要 进展 

数据 的 安全 与 隐私 问题 近年 来 一 直 是 国内 外 学 者 关注 的 重大 研究 课题 ,并 且 针对 不 
同 的 应 用 和 数据 类 型 都 有 相关 的 研究 成 果 , 总 的 来 说 ,目前 所 使 用 的 方法 有 : 

(1) 文件 访问 控制 技术 。 

通过 文件 访问 控制 来 限制 呈现 对 数据 的 操作 ,在 一 定 程度 解决 数据 安全 问题 。 

(2) 基础 设备 加 密 。 

其 本 质 是 对 大 数据 的 存储 设备 进行 安全 防护 ,但 不 能 解决 大 数据 安全 的 本 质问 题 。 

(3) 匿名 化 保护 技术 。 

匿名 化 技术 适用 于 各 类 数据 和 众多 应 用 ,并 且 算 法 通用 性 高 ,能 保证 发 布 数据 的 真实 
性 ,实现 简单 。 匿 名 化 过 程 不 可 逆 , 如 决策 分 类 器 的 构建 . 聚 类 等 应 用 ,如 太 匿 名 模型 ,mm- 
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invariance 等 。 但 匿名 化 技术 对 隐私 保护 效果 并 不 明显 ,使 得 隐私 泄露 可 能 性 很 大 。 

(4) 加 密 保 护 技术 。 

加 密 保 护 技术 能 够 保证 数据 的 真实 性 可逆 性 和 无 损人 性 ,对 隐私 保护 程度 很 高 ,主要 
应 用 于 分 布 式 下 的 数据 挖掘 和 操作 ,如 SMC 模型 ,分 布 式 关联 规则 挖掘 算法 、 差 分 隐私 
等 。 但 是 该 技术 的 计算 开销 很 大 ,对 大 数据 的 支持 不 大 适用 。 

(5) 基于 数据 失真 的 技术 。 

该 技术 可 应 用 与 关联 规则 的 挖掘 和 隐藏 等 ,如 随机 干扰 .随机 化 .阻塞 .凝聚 等 。 数 据 
失真 技术 的 实现 比较 简单 ,但 会 造成 数据 的 偏差 ,可 能 造成 数据 价值 的 丧失 。 

(6) 基于 可 逆 的 置换 算法 。 

可 道 的 置换 算法 可 以 保证 数据 的 真实 性 ,并 且 效 率 比较 高 ,常用 于 数据 中 心 的 大 规模 
系统 隐私 保护 ,如 位 置 变 换 、 映 射 变化 等 ,但 该 技术 对 于 安全 隐私 保护 力度 仍然 不 够 充分 。 

3. 发 展 趋势 

随 着 大 数据 的 不 断 发 展 和 研究 ,其 巨大 价值 在 被 不 断 挖掘 的 过 程 中 ,数据 的 安全 和 隐 
私 发 展 呈 现 出 新 的 发 展 趋势 和 挑战 。 

(1) NoSQL 有 待 进一步 完善 : 迎合 了 大 数据 的 时 代 ,适合 非 结 构 化 数据 的 存储 和 分 
析 , 有 灵活 .可 扩展 性 强 、 降 低 复杂 性 等 特点 ,但 是 在 安全 保护 上 有 待 进一步 提高 。 

(2) 针对 APT 的 攻击 : 在 大 数据 时 代 , 我 们 在 利用 数据 来 获取 价值 ,APT 的 攻击 隐 
藏 在 数据 内 部 ,很 难 被 我 们 发 现 , 所 以 专门 针对 APT 攻击 的 研究 是 非常 重要 的 。 

(3) 大 数据 的 迅速 发 展 和 数据 量 的 急剧 增加 及 急速 的 动态 变化 ,使 得 我 们 在 对 数据 
的 操作 时 所 面临 的 安全 问题 更 加 严重 。 

(4) 数据 的 多 元 化 与 彼此 的 关联 性 进一步 发 展 ,深度 挖掘 技术 、 分 析 方 法 、 算 法 模型 
的 进一步 优化 和 提高 ,使 得 对 单一 数据 的 安全 隐私 保护 方法 变 得 极其 脆弱 ,需要 针对 多 元 
数据 融合 提出 新 的 安全 隐私 保护 技术 。 

(5) 针对 目前 的 大 数据 计算 ,主要 采取 的 是 分 布 式 计算 方法 。 而 采用 分 布 式 计算 的 
时 候 必 然 面临 着 数据 传输 ,信息 交互 等 过 程 ,如 何在 这 个 过 程 中 保护 数据 不 泄露 .信息 不 
丢失 、 保 护 所 有 站 点 的 安全 与 分 布 式 系统 的 隐私 是 大 数据 发 展 面 对 的 重大 挑战 。 

(6) 目前 ,社交 网 络 成 为 现代 生活 不 可 或 缺 的 部 分 ,一 般 来 说 ,社交 网 络 都 会 获取 个 
体 用 户 的 位 置信 息 ( 如 Facebook .新浪 微 博 等 ) ,基于 网 络 的 迅速 动态 变化 和 实时 交互 等 
人 性质 ,使 得 我 们 对 网 络 的 安全 加 密 与 数据 保护 更 为 困难 ,而 作为 目前 迅速 发 展 起 来 的 社交 
网 络 ,我 们 需要 进一步 加 强 此 方面 的 安全 隐私 保护 。 

(7)“ 三 权 分 立 ” 的 模式 应 成 为 一 种 趋势 , 即 数据 的 采集 过 程 保护 ,存储 管理 保护 以 及 
数据 的 分 析 使 用 过 程 的 安全 保护 需要 由 不 同 的 管理 决策 者 来 执行 ,这 样 可 以 在 一 定 程度 
上 保护 大 数据 的 安全 隐私 。 

最 后 ,大 数据 的 保护 需要 学 术 界 、 商 业界 以 及 政府 部 门 的 共同 参与 ,需要 形成 有 效 的 
安全 机 制 和 国家 法 律 法 规 来 约束 和 保护 大 数据 的 安全 隐私 ,从 而 保证 大 数据 时 代 的 健全 、 
安全 发 展 。 
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10.8 大 数据 应 用 案例 之 : 数据 解读 城市 : 北京 本 地 人 VS 外 
地 人 


在 各 大 城市 “外 来 人 口 ?都 是 一 个 随时 可 以 引起 争议 的 话题 。 

毫 无 疑问 ,外 来 者 为 城市 的 经 济 发 展 ,城市 运行 注入 活力 ,同时 也 是 公共 资源 的 使 用 
者 。 在 人 口 资源、 环境 等 压力 之 下 ,城市 的 拥挤 ,无 序 .污染 ,不 文明 等 往往 被 当地 居民 归 
答 于 “外 地 人 ”。 

互联 网 自 媒体 和 各 个 地 方 论坛 上 ,“ 本 地 人 ”对 “外 地 人 ”的 抱怨 和 “外 地 人 ”对 “本 地 
人 ”的 反击 非常 普遍 。 在 这 些 争 论 中 ,我 们 时 常见 到 本 地 人 指责 外 地 人 对 原 有 城市 生活 环 
境 \ 文 化 .语言 等 方面 造成 冲击 。 

那么 ,首都 的 情况 如 何 ? 近年 来 , 随 着 北京 城市 面积 的 扩张 和 旧 城 人 口 的 疏解 ,北京 
的 本 地 论坛 里 也 出 现 “ 北 京 首都 化 的 过 程 就 是 外 地 人 进 三 环 , 北 京 土著 出 五 环 的 过 程 ”这 
一 说 法 。 这 些 观 感 究竟 是 带 着 情绪 的 抱怨 ,还 是 某 种 程度 上 的 事实 ? 我 们 无 意 介入 具体 
的 争论 ,这 里 仅 基于 数据 ,从 常住 外 来 人 口外 来 青年 人 才 以 及 短期 来 京 外 来 人 口 三 个 视 
角 ,分 析 一 下 北京 外 来 人 口 的 分 布 情况 。 

大 数据 论证 : 你 的 上 班 路 为 何 会 变 成 漫长 “取经 ?路 ? (北京 ) 

北京 的 人 流 在 哪儿 ?用 大 数据 看 城市 。 

用 数据 来 勾画 ,24:00 之 后 的 北京 到 底 是 啥 样 儿 ? 

大 数据 颠覆 您 心中 的 房 仅 形象 (来 自 2012 一 2014 年 的 50000 十 北京 商业 贷款 案例 ) 。 

视角 一 : 常住 外 来 人 口 分 布 

北京 的 “外 地 人 ”, 到底 住 在 哪些 地 方 ? 是 不 是 真 的 把 原先 的 老 北 京 “ 挤 出 去 "了 呢 ? 
我 们 先 来 试 着 回答 一 下 这 个 问题 。 

从 2010 年 全 国 第 六 次 人 口 普查 的 数据 看 ,北京 常住 外 来 人 口 数量 的 分 布 图 如 图 10. 4 
所 示 。 

常住 人 口 指 的 是 ,“ 全 年 经 常 在 家 或 在 家 居住 6 个 月 以 上 , 且 经 济 和 生活 与 本 户 连 成 
一 体 的 人 口 ?。 北 京 市 常住 外 来 人 口 总 共有 702. 8 万 ,其 中 一 半 以 上 居住 在 五 环 之 外 , 具 
体 数 字 是 375.2 万 。 

我 们 以 “乡镇 街道 办 事 处 ?为 统计 单位 ,考察 常住 外 来 人 口 总 数 , 发 现 大 量 外 来 人 口 集 
中 在 五 环 以 外 (颜色 越 深 ,常住 外 来 人 口 数 量 越 多 ): 北 五 环 至 六 环 之 间 的 回龙观 、 东 小 
口 . 北 七 家 ; 南 三 环 与 南 五 环 之 间 卢 沟 桥 .新 村 ,大 红 门 旧 宫 十 八里 店 ; 以 及 东 五 环 外 平房 
和 永 顺 街道 ,如 图 10. 5 所 示 。 

通过 “外 来 人 口 所 占 单元 总 人 口 比 例 ” 数 据 观 察 本 地 外 来 人 口 分 布 , 我 们 发 现 , 在 各 环 
路 之 间 ,五 六 环 之 间 的 常住 外 来 人 口 占 全 部 常住 人 口 的 比例 最 高 ,达到 61.8% ,而 四 环 内 
常住 外 来 人 口 占 比 仅 约 为 32.1% 。 

小 结 : 

与 上 海 所 呈现 的 现象 不 同 的 是 ,北京 本 地 人 (拥有 北京 户籍 的 人 口 ) ,还 是 比较 住 在 繁 
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图 10.5 北京 各 环 路 间 常 住 外 来 人 口 比例 概况 


华 的 “ 城 里 ,尽管 存在 人 口 玻 解 措 施 , 但 截至 2010 年 ,四 环 以 内 北京 本 地 人 为 主 的 人 口 结 
构 , 并 没有 改变 。 

视角 二 :“ 外 来 人 才 ” 分 布 

对 于 特大 城市 的 政府 而 言 , 在 对 外 来 人 口 限制 的 同时 ,对 所 谓 “ 外 来 高 端 人 才 ” 通 常 持 
欢迎 态度 。 那 么 ,是 否 意味 着 ,外 来 高 端 人 才 "? 会 住 在 北京 靠近 市 中 心 一 带 ? 

由 于 缺乏 “外 来 高 端 人 才 ” 的 官方 统计 口径 ,为 了 观察 他 们 的 分 布 ,我 们 用 “拥有 大 学 
及 以 上 学 历 的 青年 人 ”来 分 析 。 根 据 某 电 商 的 用 户 画 像 数据 ,我 们 分 析 了 20 一 30 岁 大 学 
及 以 上 学 历 的 工作 人 群 在 京 的 分 布 情况 。 
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总 体 上 看 ,没有 本 地 人 才 绝 对 主导 的 区 域 , 却 有 一 些 居住 单元 或 就 业 单元 ,青年 人 才 
里 90% 以 上 是 外 地 人 。 

我 们 发 现 , 外 来 青年 人 才 大 量 安居 (或 租 住 ) 在 海淀 东部 北部 、 朝 阳 、 顺 义 、 通 州 亦 庄 、 
大 兴 等 区 域 ,在 城市 北 、 东 、 南 三 个 方位 形成 一 个 倒 C 的 包围 圈 。 

尤其 是 在 回龙观 天通苑、 沙河. 宋 庄 以 及 黄村 等 部 分 区 域 ,如 果 你 遇 到 一 个 有 大 学 以 
上 学 历 的 青年 人 ,那么 他 /她 有 90% 以 上 的 可 能 会 是 个 外 地 人 。 

在 北京 ,外 来 青年 人 才 平 均 通勤 距离 近 20km, 他 们 从 事 信息 技术 、 软 件 . 互 联网 、 新 
材料 .新 型 制造 业 等 高 新 技术 行业 工作 。 而 本 地 年 轻 人 才 更 多 居住 在 东城 ,西城 ,海淀 西 
南部 .丰台 东南 和 河西 .门头沟 房山 等 区 域 , 呈 带 状 分 布 。 

本 地 青年 人 才 居住 比例 ( 即 青年 人 才 中 ,本 地 人 比例 ) 最 高 的 单元 ,是 长 辛 店 的 63% 
和 苹果 园 的 55% ;在 中 心 城区 ,本 地 青年 人 才 居 住 比例 最 高 的 单元 依次 是 新 街 口 55%, 右 
安 门 54% ,景山 52%, 以 及 大 栅栏 50%。 就 业 方面 ,本 地 青年 人 才 比 例 最 高 的 单元 依然 
是 长 辛 店 的 56% 和 苹果 园 的 55% ,三 环 内 中 心 区 域 本 地 人 才 就 业 比 例 较 高 的 单元 有 交道 
口 54%、 大 栅栏 53%、 白 纸 坊 52%% 、 东 铁匠 营 52% 和 展览 路 51%。 

大 体 上 看 ,在 国家 部 委 、 机 关 事业 单位 文化 .医疗 .商贸 等 岗位 密集 的 区 域 , 本 地 人 才 
比例 稍 高 ;在 金融 教育 科研 , 文 创 产业 等 行业 密集 的 区 域 , 本 地 与 外 地 人 才 的 比例 相似 。 

可 见 , 尽 管 政府 欢迎 “外 来 高 端 人 才 ”, 但 “人 才 ” 中 的 大 部 分 却 并 未 进 到 城 里 。 

说 明 ; 本 视角 观察 的 “本 地 人 ”和 “外 来 人 ”并 非 是 城市 的 全 部 人 口 结构 ,而 是 20 一 
30 岁 已 毕业 的 具有 大 学 及 以 上 学 历 的 群体 。 此 外 ,与 常住 外 来 人 口 的 户籍 区 分 方式 不 同 ， 
此 处 的 “本 地 ”外 地 ”主要 按照 出 生地 来 分 辨 。 

视角 三 : 短期 来 京 者 的 分 布 

以 上 两 个 视角 观察 的 都 是 定居 北京 或 在 京 长 期 就 业 的 外 来 人 口 分 布 ,至 此 ,我 们 并 未 
发 现 显 著 的 “外 来 人 口 主导 北京 城 ?的 现象 ,尤其 是 ,在 东城 区 和 西城 区 的 常住 人 口 和 就 业 
人 和 群 里 ,北京 本 地 人 占 绝 大 多 数 。 

但 是 ,为 什么 在 很 多 人 印象 中 ,北京 城 里 四 处 都 是 操 着 异地 口音 的 “外 地 人 ”? 实际 
上 ,北京 城 的 活动 人 群 中 ,有 大 量 短期 外 来 人 员 , 比 如 游客 .探亲 访 友 者 .来 京 出 差 的 商务 
人 士 等 。 他 们 并 没有 出 现在 我 们 前 面 的 统计 之 中 。 

为 了 观察 这 类 人 群 的 分 布 特征 ,我 们 利用 人 迹地 图 ”大 数据 平台 ,基于 2015 年 某 普 
通 工作 日 定位 数据 ,对 北京 东城 和 西城 区 ,以 及 短期 外 来 人 员 较 多 的 热门 吸引 点 ,识别 了 
常住 地 在 北京 的 人 和 常住 地 不 在 北京 的 短期 来 京 者 ,观察 他 们 一 日 内 (上 午 、 下 午 、 夜 间 ) 
在 北京 的 分 布 情况 。 这 些 热门 地 点 可 分 为 办 公 、 商 业 、 景 点 、 对 外 枢纽 和 批发 市 场 五 大 类 。 

从 整体 上 看 ,排除 短期 外 来 人 员 集 中 的 机 场 、 火 车 站 等 对 外 交通 枢纽 ,白天 的 国贸 区 
域 是 短期 外 来 人 员 最 密集 的 区 域 , 共 观测 到 近 3 万 人 ,密度 约 0. 8 万 人 /km?*。 国 贸 区 域 
是 北京 的 商务 中 心 区 ,在 工作 日 ,有 大 量 出 差 来 京 的 商务 人 士 前 往 。 此 外 ,同时 这 里 也 是 
重要 的 公共 交通 结 点 。 据 报道 ,国贸 地 铁 换 乘 日 均 人 流量 可 达 30 万 人 次 , 故 该 区 域 观测 
到 的 人 口 数 据 一 定 程度 上 受到 了 地 铁 、 公 交 客 流 影响 。 

八达岭 全 天 观测 到 1. 6 万 短期 外 来 人 员 ,不 过 由 于 占 地 面积 广阔 ,八达岭 长 城 的 人 员 
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密度 并 不 高 ;天 安 门 区 域 虽然 观测 到 的 短期 外 来 人 员 绝 对 数量 不 算 靠 前 , 却 是 短期 外 来 人 
员 密 度 最 高 的 区 域 ;王府 井 则 在 数量 和 密度 上 都 位 居 前 列 , 如 图 10. 6 所 示 。 




















全 天 短期 外 来 人 员 数 量 和 密度 
八达岭 长 城 1.6 万 人 
王府 井 uy 1.1 万 人 
TT 5 
PPP 27 
西单 0.76 万 人 
新 光 天 地 
动物 园 
天 [] 帅 058 万 人 密度 高 密度 低 


10.6 代表 性 吸引 点 全 天 短期 外 来 人 员 观 测 数量 和 密度 


进一步 按照 上 午 .下 午 和 晚上 对 各 类 吸引 点 单元 做 详细 分 析 。 

1. 东城 ,西城 

从 东城 区 ,西城 区 全 区 看 ,在 该 工作 日 的 上 午 , 东 城区 总 共 观 测 到 约 127 万 人 ,其 中 短 
期 外 来 人 员 约 占 16.7%, 西 城区 总 共 观 测 到 约 140 万 人 ,短期 外 来 人 员 约 占 18.9% ;下午 
与 夜间 的 比例 相似 。 也 就 是 说 ,工作 日 在 北京 旧 城 出 现 的 人 当中 ,每 五 个 人 就 有 一 个 是 短 
期 外 来 人 员 。 

2. 办 公 类 

国贸 区 域 上 午 观测 到 人 口 21 万 人 ,下 午 则 增加 至 23 万 人 。 如 果 你 这 个 工作 日 白天 
出 行 目 的 地 是 国贸 ,那么 在 这 边 磁 到 的 人 里 ,有 13% 的 概率 是 短期 外 来 人 员 ; 到 了 夜间 ， 
短期 来 京 者 比例 增加 至 23% ,这 是 因为 在 京 定 居 的 商务 精英 下 班 离开 CBD, 而 不 少 外 来 
的 商旅 人 士 则 选择 在 CBD 区 域 的 商务 酒店 里 度 过 这 个 普通 的 夜晚 。 

3. 景点 类 

天 安 门 向 来 是 外 地 游客 必 去 的 景点 ,在 我 们 观测 的 33 个 热门 吸引 点 中 ,这 里 是 唯一 
出 现 过 短期 外 来 人 员 比 例 高 于 本 地 人 的 地 点 。 在 这 个 工作 日 的 上 午 ,这 里 观测 到 1. 4 万 
人 ,其 中 有 52% 是 短期 来 京 者 。 到 了 下 午 , 在 天 安 门 区 域 的 可 识别 人 数 减 少 了 4 千 人 , 短 
期 来 京 者 的 比例 也 下 降 到 了 38%。 天 安 门 是 游客 游览 故宫 的 入 口 ,大 多 数 游客 会 选择 早 
上 进入 故宫 。 此 外 ,这 里 早上 有 万 众 瞩 目的 升 国旗 仪式 , 毛 主 席 纪 念 堂 也 只 在 上 午 开 放 。 
所 以 ,如 果 你 这 天 早上 来 到 天 安 门 ,那么 你 遇 到 的 路 人 是 外 地 游客 的 概率 会 大 于 是 北京 市 
民 的 概率 。 

跟 天 安 门 相反 , 南 锣鼓 埠 下 午 更 吸引 游客 , 且 更 吸引 本 地 游客 ,短期 来 京 者 比例 并 不 
高 。 该 日 上 午 共 观 测 到 2 万 人 ,下 午 增 至 2. 5 万 人 ,短期 来 京 者 的 比例 也 从 14% 增 至 
15% ,到 了 夜间 ,短期 来 京 者 比例 进一步 增 至 17%。 

颐和园 占 地 面积 较 大 ,游客 往往 要 花费 一 整 天 时 间 才 能 走 完 。 因 此 上 午 和 下 午 可 观 
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测 的 人 数 浮 动 在 1.6 万 人 上 下 ,并 没有 太 大 变化 。 其 中 短期 外 来 人 员 比例 也 很 高 : 在 与 
你 擦 肩 而 过 的 游人 中 ,有 40% 的 可 能 是 外 地 游客 。 

而 前 面 提 到 的 八达岭 长 城 ,白天 观测 到 4. 2 万 人 ,外 地 游客 比例 同样 在 40% 左 右 。 

4. 商业 类 

西单 商 圈 作 为 老牌 商业 中 心 ,同样 是 吸引 短期 来 京 者 的 重要 地 点 。 在 该 工作 日 的 上 
午 ,我 们 在 西单 观测 到 3. 4 万 人 ,下 午 增 至 将 近 4. 8 万 人 ,其 中 短期 来 京 者 的 比例 保持 在 
18% 左 右 。 到 了 夜间 , 随 着 北京 市 民 离 开 西单 回 家 ,短期 来 京 者 的 比例 增 至 28%% ,可 以 推 
测 ,很 多 来 京 出 差 .旅游 的 人 ,会 选择 住 在 生活 和 交通 都 很 便利 的 西单 附近 。 
王府 井 共 观 测 到 4 万 人 ,上 下 午 总 人 数 基 本 没有 差异 ,其 中 有 40% 是 短期 来 京 者 ,这 
一 比例 远 高 于 西单 。 到 了 夜间 ,依然 有 30% 的 短期 来 京 者 住宿 在 这 里 。 由 此 看 来 ,同样 
是 国家 级 商业 中 心 ,王府 井 对 外 地 人 的 吸引 力 比 西单 更 高 ,后 者 还 是 以 服务 本 地 市 民 
为 主 。 

5. 对 外 枢纽 类 

在 对 外 交通 枢纽 中 ,首都 机 场 、 北 京 站 的 短期 外 来 人 员 比 例 在 30% ~35% ,北京 西 站 
略 高 , 约 在 45% 左 右 ;而 北京 南 站 的 情况 则 比较 特殊 : 我 们 发 现 ,这 里 的 短期 来 京 者 比例 
非常 低 , 全 天 都 维持 在 15% ,与 其 他 火车 站 以 及 首都 机 场 相 比 相差 甚大 。 这 是 否 说 明 , 北 
京 南 站 这 个 价格 稍 高 的 高 铁 站 ,更 多 是 为 进出 北京 的 北京 市 民 服 务 ? 不 过 ,北京 南 站 我 们 
观测 到 的 人 口 数 量 相 比 起 其 全 天 吞吐 量 而 言 样本 量 太 少 ,未 来 我 们 会 寻找 其 他 数据 源 来 
验证 这 个 结论 ,如 图 10.7 所 示 。 
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图 10.7 对 外 枢纽 2: 北京 站 和 北京 南 站 对 比 
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6. 批发 市 场 类 

在 很 多 人 印象 里 ,批发 市 场 是 外 地 人 密集 的 区 域 。 动 物 园 批发 市 场 区 域 在 上 午 观测 
到 近 2.9 万 人 ,下 午 增 至 3. 2 万 余人 。 这 里 短期 来 京 者 的 比例 并 不 高 ,而 且 从 早 到 晚 比例 
变化 都 不 大 , 仅 在 20% 左 右 。 

位 于 西南 四 环 外 的 新 发 地 农产品 批发 市 场 白天 观测 到 3 万 人 左右 ,短期 来 京 者 约 占 
1/4, 比 例 高 于 动物 园 批发 市 场 ;到 了 夜间 ,短期 来 京 者 的 比例 则 增 至 29%。 因 为 从 晚上 
11 点 到 次 日 清晨 6 点 之 间 , 北 京 才 允 许 外 地 车 辆 进 城 ,新 发 地 作为 农产品 批发 市 场 ,每 天 
都 有 很 多 外 地 车 辆 在 夜间 送 货 到 这 里 。 

从 数据 来 看 ,这 些 批 发 市 场 服务 的 对 象 仍 是 北京 市 民 一 一 尽管 我 们 目前 还 难以 分 辨 
这 里 面 有 多 大 比例 是 北京 户籍 。 

总 结 

经 过 以 上 分 析 ,“ 北 京 首都 化 的 过 程 就 是 外 地 人 进 三 环 ,北京 土著 出 五 环 的 过 程 ”这 个 
说 法 并 不 正确 。 无 论 常住 外 来 人 口 还 是 “外 来 人 才 ”, 他 们 都 主要 集中 在 城市 北 、 东 、 南 三 
个 区 域 的 四 环 . 五 环 外 围 ,四 环 以 内 仍 以 本 地 人 为 主 ,“ 外 来 人 才 ” 从 事 的 行业 与 城 里 的 本 
地 人 才 从 事 的 行业 也 开始 产生 了 一 定 分 化 。 可 见 北京 的 新 城 和 边缘 集团 建设 还 是 明显 起 
到 了 对 外 来 人 口 的 截留 作用 一 一 当然 , 城 里 高 易 的 房价 和 房租 的 作用 也 不 容 忽视 。 

但 在 二 环 以 内 、 商 务 中 心 区 以 及 主要 旅游 景点 ,有 相当 比例 的 人 是 短期 外 来 人 员 , 基 
本 在 20 儿 以 上 ,在 某 些 时 刻 某 些 区 域 甚至 超过 50%。 这 些 短期 来 京 者 ,使 北京 市 民 产生 
某 种 错觉 一 一 北京 城 里 外 来 人 口 太 多 。 

近来 ,北京 开始 疏解 城 六 区 的 “ 非 首都 功能 ,但 在 城 里 的 居住 者 和 就 业者 主体 上 还 是 
北京 本 地 人 。 而 旅游 景点 .商业 中 心 和 商务 中 心 区 是 搬 不 走 的 。 那 么 , 当 北 京 本 地 市 民 随 
着 他 们 的 安置 房 以 及 岗位 而 被 政 解 到 新 城 和 北京 周边 ,那些 留 在 北京 城 里 的 人 们 就 会 有 
更 高 的 概率 与 来 自 祖国 各 地 的 同胞 擦 肩 而 过 ,届时 他 们 或 许 会 想 一 一 是 不 是 玖 解 力度 还 
不 够 ? 
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